Linux 突变数据处理pyclone+citup+timescape

使用PyClone来推断肿瘤纯度及肿瘤内部亚克隆结构;对于套用自己的数据有教程;生信菜鸟团2019-03-14
PyClone推断肿瘤细胞的克隆组成;生信菜鸟团2020-04-16

1.下载安装

## 创建小环境
conda create --name pyclone python=2
conda activate pyclone
## 用conda安装pyclone
conda install -c aroth85 pyclone

cd ~/wes_cancer/biosoft/
## 下载软件包
git clone https://github.com/aroth85/pyclone
## 安装,如果用conda安装好了,就不用再安装一遍,下载数据就行
# cd pyclone
# python setup.py install

2.跑测试数据

conda activate pyclone

cd ./biosoft/pyclone/examples/mixing/tsv/

PyClone run_analysis_pipeline --in_files SRR385938.tsv SRR385939.tsv SRR385940.tsv SRR385941.tsv --working_dir pyclone_analysis
2.1关于输入文件格式

大多数用户将通过创建一组以制表符分隔的(tsv)输入文件来使用PyClone,每个来自癌症的示例都有一个文件。这个文件的有六个必要列,如下。

mutation_id:突变的唯一标识符。这在不同的数据集中应该是相同的;
ref_counts:与参考等位基因相匹配的位点的Reads数;
var_counts:与变异等位基因相匹配的位点的Reads数;
normal_cn:该位点在非恶性细胞中的拷贝数,默认是2,除了来自男性的性染色体;
minor_cn:肿瘤细胞中次等位基因的拷贝数,该值必须小于等于major_cn列中的值;
major_cn:肿瘤细胞中主等位基因的拷贝数,应该大于等于minor_cn列中的值并非0;
.............:任何其他列都将被忽略。

pyclone软件中例子的数据格式,对于二倍体生物总拷贝数为 2:

当基因型为 AB 的杂合突变位点时,minor_cn 和 major_cn 分别为 1;
当基因型为 BB 时,minor_cn 为 0,major_cn 为 2。
正常的vcf或是maf文件并未给出minor_cn和major_cn,
如果是使用GATK检测出来的CNV,利用其中的Segment_Mean来确定:
A. 大于 0 则拷贝数扩增;
B. 小于 0 则拷贝数缺失;
C. -0.2~0.2 之间则认为是正常。
2.2在pyclone_analysis文件下会生成如下文件夹或文件:
config.yaml #指定用于PyClone分析的设置文件
plots/ #包括生成的全部图
tables/ #包括生成的全部表格
trace/ #包括MCMC抽样算法的原始痕迹
yaml/ #存放yaml突变文件的文件夹,用于PyClone分析

(值得注意的是,虽然上面是4个数据文件,但其实可以看做是同一个人的4个数据,所以理论上pyclone是针对单独的一个病人来进行计算,一个病人可以有多个肿瘤部位进行测序,这样pyclone就能计算它们的进化情况。)

3.citup

安装教程
跑流程

4.可视化

绘制进化树,可以使用supra hex

TimeScape
利用 Timescape 做肿瘤进化鱼图;生信菜鸟团2020-04-30

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值