目录
变异识别-deepvariant
1 软件简介
CPU版本: DeepVariant是一个基于深度学习的变体调用程序,是一个预训练好的基于人类基因组的tensorflow模型,它接受对齐读取(BAM或CRAM格式),从中生成叠列图像张量,使用卷积神经网络对每个张量进行分类,最后以标准VCF或gVCF文件的形式报告结果。该应用采用docker集成运行环境,使用时不需要复杂的安装,只需要将镜像下载下来,将docker目录与宿主机的目录进行映射即可。 DCU版本: 该软件GPU加速版本原由google公司维护,采用docker构建应用,后端采用cuda加速。目前DCU版本采用非镜像构建,其推理过程使用DCU进行加速,功能上和原生GPU版本保持一样。
2 软件版本
r1.1.0 CUDA
[CPU]
3 安装方式
-
CPU版本安装过程 cpu版本在线安装:
BIN_VERSION="1.0.0" docker pull google/deepvariant:"${BIN_VERSION}"
运行程序:
docker run -v "${INPUT_DIR}":"/input" -v "${ OUTPUT_DIR }":"/output" google/deepvariant:"${BIN_VERSION}" /opt/deepvariant/bin/run_deepvariant --model_type=WGS --ref=/input/ucsc.hg19.chr20.unittest.fasta --reads=/input/NA12878_S1.chr20.10_10p1mb.bam --regions "chr20:10,000,000-10,010,000" --output_vcf=/output/output.vcf.gz --output_gvcf=/output/output.g.vcf.gz --intermediate_results_dir /output/intermediate_results_dir --num_shards=1
上述命令中INPUT_DIR和OUTPUT_DIR是预先设置好的系统变量,INPUT_DIR路径应该包含测试数据,该应用有自带数据集,通过下面方式下载
wget -P ${INPUT_DIR} "${DATA_HTTP_DIR}"/NA12878_S1.chr20.10_10p1mb.bam wget -P ${INPUT_DIR} "${DATA_HTTP_DIR}"/NA12878_S1.chr20.10_10p1mb.bam.bai wget -P ${INPUT_DIR} "${DATA_HTTP_DIR}"/test_nist.b37_chr20_100kbp_at_10mb.bed wget -P ${INPUT_DIR} "${DATA_HTTP_DIR}"/test_nist.b37_chr20_100kbp_at_10mb.vcf.gz wget -P ${INPUT_DIR} "${DATA_HTTP_DIR}"/test_nist.b37_chr20_100kbp_at_10mb.vcf.gz.tbi wget -P ${INPUT_DIR} "${DATA_HTTP_DIR}"/ucsc.hg19.chr20.unittest.fasta wget -P ${INPUT_DIR} "${DATA_HTTP_DIR}"/ucsc.hg19.chr20.unittest.fasta.fai wget -P ${INPUT_DIR} "${DATA_HTTP_DIR}"/ucsc.hg19.chr20.unittest.fasta.gz wget -P ${INPUT_DIR} "${DATA_HTTP_DIR}"/ucsc.hg19.chr20.unittest.fasta.gz.fai wget -P ${INPUT_DIR} "${DATA_HTTP_DIR}"/ucsc.hg19.chr20.unittest.fasta.gz.gzi
cpu版本离线安装: 本地镜像deepvariant.tar,使用docker load < ./deepvariant.tar可以加载。然后通过该镜像可以构建容器,与上面使用方式一样。测试数据在quickstart-testdata中。
-
DCU安装
确保系统中有rocm版本的tensorflow1.14 DCU加速版本不需要安装,通过上面ROCM链接下载即可以使用。
4 测试运行
cd deepvariant/bin
./run_deepvariant --model_type=WGS --ref=../../input/ucsc.hg19.chr20.unittest.fasta --reads=../../input/NA12878_S1.chr20.10_10p1mb.bam --regions "chr20:10,000,000-10,010,000" --output_vcf=../../output/output.vcf.gz --output_gvcf=../../output/output.g.vcf.gz --intermediate_results_dir ../../output/intermediate_results_dir --num_shards=1
运行完毕后会生成结果报告output.visual_report.html