使用PyClone来推断肿瘤纯度及肿瘤内部亚克隆结构;对于套用自己的数据有教程;生信菜鸟团2019-03-14
PyClone推断肿瘤细胞的克隆组成;生信菜鸟团2020-04-16
1.下载安装
## 创建小环境
conda create --name pyclone python=2
conda activate pyclone
## 用conda安装pyclone
conda install -c aroth85 pyclone
cd ~/wes_cancer/biosoft/
## 下载软件包
git clone https://github.com/aroth85/pyclone
## 安装,如果用conda安装好了,就不用再安装一遍,下载数据就行
# cd pyclone
# python setup.py install
2.跑测试数据
conda activate pyclone
cd ./biosoft/pyclone/examples/mixing/tsv/
PyClone run_analysis_pipeline --in_files SRR385938.tsv SRR385939.tsv SRR385940.tsv SRR385941.tsv --working_dir pyclone_analysis
2.1关于输入文件格式
大多数用户将通过创建一组以制表符分隔的(tsv)输入文件来使用PyClone,每个来自癌症的示例都有一个文件。这个文件的有六个必要列,如下。
mutation_id:突变的唯一标识符。这在不同的数据集中应该是相同的;
ref_counts:与参考等位基因相匹配的位点的Reads数;
var_counts:与变异等位基因相匹配的位点的Reads数;
normal_cn:该位点在非恶性细胞中的拷贝数,默认是2,除了来自男性的性染色体;
minor_cn:肿瘤细胞中次等位基因的拷贝数,该值必须小于等于major_cn列中的值;
major_cn:肿瘤细胞中主等位基因的拷贝数,应该大于等于minor_cn列中的值并非0;
.............:任何其他列都将被忽略。
pyclone软件中例子的数据格式,对于二倍体生物总拷贝数为 2:
当基因型为 AB 的杂合突变位点时,minor_cn 和 major_cn 分别为 1;
当基因型为 BB 时,minor_cn 为 0,major_cn 为 2。
正常的vcf或是maf文件并未给出minor_cn和major_cn,
如果是使用GATK检测出来的CNV,利用其中的Segment_Mean来确定:
A. 大于 0 则拷贝数扩增;
B. 小于 0 则拷贝数缺失;
C. -0.2~0.2 之间则认为是正常。
2.2在pyclone_analysis文件下会生成如下文件夹或文件:
config.yaml #指定用于PyClone分析的设置文件
plots/ #包括生成的全部图
tables/ #包括生成的全部表格
trace/ #包括MCMC抽样算法的原始痕迹
yaml/ #存放yaml突变文件的文件夹,用于PyClone分析
(值得注意的是,虽然上面是4个数据文件,但其实可以看做是同一个人的4个数据,所以理论上pyclone是针对单独的一个病人来进行计算,一个病人可以有多个肿瘤部位进行测序,这样pyclone就能计算它们的进化情况。)