实验记录 | 6/21结个尾吧

mutect的结果报错,对我而言始终是一件如鲠在喉的事情。今天上午,就入手解决这件事情。

首先,先理清楚汇报的主要的思路(也不用过于紧张,平常心就好)。所以,究竟是什么呢?
刚开始,比较纠结于到底是使用mutect1还是mutect2,后来去网上调查比较后发现,mutect1更加专长于对单核苷酸变异的检测,而mutect2则在这个基础上,与GATK结合,更加专长于indel的检测。所以,综上所述,我应该试着跑完mutect1的流程。

或者,现在开始配置cnv.pl的环境。

关于mutect的问题,我找到了几处解释:
参考链接:https://stackoverflow.com/questions/19934021/vcf4-2-file-not-recognised-by-gatk

I finally figured it out: It was something off the the VariantAnnotator vcf from GATK, I re-ran it and used the new file, I also deleted the old index file. The manual correction of the ESP VCF works! Its a bit boring, but it does the job. Hope this help anyone else getting this error! Replace all chromosome names manually using “find & replace” in Textedit. Its something about the formatting thats off.

参考链接:https://www.biostars.org/p/117241/

Ok, Luckily I figured it out.
There is nothing wrong with the VCF file, the recal and tranches files were empty, I was mislead by the error message!
Thanks everyone

这个问题,暂时无法解决,放在一边。

我们接下来,看一下cnv.pl的运行规则。
需要依赖性的软件,CNVkit。
参考链接:https://github.com/etal/cnvkit
https://cnvkit.readthedocs.io/en/stable/quickstart.html#install-cnvkit
https://cnvkit.readthedocs.io/en/stable/

尝试使用conda,来安装cnvkit。

./conda config --add channels bioconda
 ./conda install cnvkit

./conda config --set channel_priority flexible
./conda install cnvkit

报错:

Collecting package metadata (current_repodata.json): done
Solving environment: failed with initial frozen solve. Retrying with flexible solve.
Solving environment: failed with repodata from current_repodata.json, will retry with next repodata source.
Collecting package metadata (repodata.json): done
Solving environment: failed with initial frozen solve. Retrying with flexible solve.
Solving environment: /
Found conflicts! Looking for incompatible packages.
This can take several minutes. Press CTRL-C to abort.
failed
UnsatisfiableError: The following specifications were found to be incompatible with each other:
Output in format: Requested package -> Available versions

检查运行环境,cnvkit需要在3.5以上的环境中运行。
查看python的版本。
python --version

Python 3.6.13 :: Anaconda, Inc.

满足要求。

安装R的依赖包。
进入到R的路径当中,运行指令:
install.packages("DNAcopy")
得到报错:

Warning message:
package ‘DNAcopy’ is not available (for R version 3.6.3)


这个问题,稍后再谈。
我们先把hg38的环境配置好,配置好之后的话,再使用hg38的参考基因组跑一遍。看看结果会不会有所相似(不敢求同)。
看一下,配置与参考基因组相关的环境,都需要哪些文件:
(1)参考基因组
(2)索引文件

  • dict
    (上次已经构建完成)
  • fai
    (上次已经构建完成)
  • sa/amb/ann/pac/bwt
    服务器上已有的索引文件是不完整的,所以自己重新下载。
    /home/xxzhang/workplace/software/bwa/bwa index -a bwtsw hg38.fasta
    (正在构建过程中)
  • exon.bed(这个也是在RNA的时候需要时候)
    (暂时不用,我们先跑DNA)

(3)hg38.fasta_resource
已经存放在服务器中(可能今年的12月份已经有人用过mutation calling的这个过程)。我们使用cp指令,将其拷贝到目录文件夹内,然后对其进行重命名。

  • dpsnp.hg38.vcf
  • 1000G_phase1.snps.high_confidence.hg38.vcf
  • Mills_and_1000G_gold_standard.indels.hg38.vcf
  • CosmicCodingMuts.hg38.vcf(RNA数据集,mutect的时候需要这个数据文件)

等到这一部分的基因组文件配置完成,我们再次运行mtDNA的mutation calling的过程,将这个结果与作者提供的结果进行比较。===>短期的目标

咨询一下老师是否需要复现作者的原始数据集,如果担心时间的要求的话,我可以取一部分往下做。===>长期的目标
(前面还有一个遗留性的问题,就是mutect的使用)

接着的话,就是继续推进cnv.pl这个流程。我自己倒也挺好奇,拷贝变异是什么东西。但是,它在文件上说明是适用于exome_seq,关于这一点,作者暂时没有回答我。

所以,目前还是处于一种卡住的状态。不知道下一步该往哪里走。===>我感觉我对于代码内部的一些处理(比如他是如何区分germline和somatic突变),了解得还不够。以及刚刚遇到的一个问题,它结果文档中,单个位点的是什么?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值