[转载]转录组测序分析中cufflinks的使用及问题

在转录组高通量测序数据分析过程中,主要就是转录本的构建(拼接)及表达水平的衡量,其次还包括可变剪接之类的转录后修饰等研究分析。因此,做过RNA-seq转录组测序数据分析的童鞋们一定使用过或至少听说过Cufflinks这个软件。

Cufflinks是加利福尼亚大学伯克利分校数学和计算机生物实验室,由LiorPachter领导的StevenSalzberg’s团队,和马里兰大学生物信息和计算机生物中心的Steven Salzberg小组,以及加州理工学院的Barbara Wold实验室联合作用的结果。Cufflinks 利用Tophat比对的结果(alignments)来组装转录本,估计这些转录本的丰度,并且检测样本间的差异表达及可变剪接。这个软件其实是个套装,包括四个部分分别命名为:cufflinks、cuffcompare、cuffmerge及cuffdiff。



tophat-->Cufflinks-->cuffdiff转录组分析大致流程如下

第一步,利用tophat/bowtie比对结果( bam格式)及参考基因组构建转录本,最终的转录本是以 gtf格式保存的。
第二步,Cuffcompare主要是对两个或多个转录本集合中转录本相似情况的比较,例如将第一步构建出的转录本与ENSEMBL数据库中的转录本进行比较,评估转录本构建情况,此外,根据构建的转录本与已知ENSEMBL数据库中的转录本的相对位置定义了一系列分类,例如内含子区域、反义、基因间区域转录本等等近10种分类。
第三步,cuffmerge是将多个转录本集合合并成一套转录本集合,例如将在多个组织样本中构建的多套转录本合并成一套转录本,cuffmerge能够很好地完成去除冗余。
第四步,cuffdiff衡量两个或多个样本间差异表达的基因,例如癌症与正常组织间差异表达的转录本,此外还能衡量差异可变剪接体。
至此,转录本测序常规数据分析基本结束,接下来进行实验验证或深入数据分析。


OK ,如果对 cufflinks 的流程理解没问题的话,现在问题来了!!

tophat--> cufflinks --> cuffdiff流程中,第一步对每一个样本会产生一个的gtf格式的转录本,因此若有n个样本就会有n个gtf.  但是在对n个样本之间做差异表达分析时,由于各样本之间的转录本集合不相同。在做cuffdiff时,却要求输入一个gtf,以便对该gtf 文件中转录本在不同样本间进行差异分析。因此需要将n个样本的gtf文件合并成一个。问题是, cufflinks cuffcompare cuffmerge 两个合并转录本的方法, 这是应该选用那个?这两个有什么区别?


个人理解及经验分享:

这是所有初做 NGS 分析的很因惑的问题,事实上,对于多个样本构建的多套转录本,如何得到统一的一套转录本,有下面三种方法:

1 在转录本拼接之前,把各样本的比对bam文件合并,然后用合并的bam跑cufflinks
2 每个样本的比对bam文件分别单独跑cufflinks,各样本的转录本构建后,再用cuffcompare合并为一套转录本。
3 每个样本的比对bam文件分别单独跑cufflinks,各样本的转录本构建后,再用cuffmerge合并为一套转录本。



   这三种做法区别在于:
第一种方法流程相对简单,所有的工作都抛给cufflinks一人完成,你都不需要知道cuffmerge、cuffcompare的用法。貌似是种完美解决方案。但很大的问题是:cufflinks能处理得了最终合并的bam吗?对于小物种的样本还可以,但对于人,若是7,8个样本合成的bam,cufflinks吃不销!
第二和三种方法是类似的,都是在保留可变剪切结构的前提下,将转录本合并。不同的是,cuffcompare只有A、B两条转录本结构相同的时候,才将A、B合并。而cuffmerge是A、B某些部分互相overlap,就将它俩合并。事实上,cuffmerge再做合并的时候,是把overlap的transfrag重新调用了cufflinks,合成一个transfrag。
第二和三种方法还有一个很大的不同是,cuffmerge可以带上参考注释有参考的进行合并,而cuffcompare不能如此。这是cuffmerge对cuffcompare的一个优势。


因此,我认为第三种方法比第二种方法是最接近于第一种方法,而第一种方法的可实现性较差,在现有条件,最完美的解决方案就是第三种方法:每个bam单独跑cufflinks,跑完的结果再用cuffmerge合并。

http://blog.sciencenet.cn/blog-777771-609782.html 

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
通过转录测序评估肿瘤突变负荷的技术路线一般如下: 1. 样本采集和RNA提取:首先需要从肿瘤织和正常采集样本,然后提取RNA。RNA提取需要进行质量检测,确保RNA的完整性和纯度。 2. 转录测序:接下来需要对RNA样本进行测序,一般使用Illumina HiSeq或NovaSeq平台进行测序转录测序需要进行质量控制和去除低质量序列。 3. 数据预处理:转录测序数据需要进行预处理,包括去除低质量序列、去除接头序列、去除rRNA序列、去除重复序列等步骤。 4. 转录本定量:使用转录测序数据进行转录本定量,一般使用RSEM、Kallisto、Salmon等工具进行转录本表达量计算。 5. 突变检测和注释:使用转录本定量数据进行突变检测和注释,一般使用Mutect、VarScan、GATK等工具进行突变检测和注释,同时需要进行过滤和筛选,去除假阳性突变位点。 6. 肿瘤突变负荷计算:使用突变位点和转录本表达量数据计算肿瘤突变负荷,一般计算方法为TMB = 突变数/覆盖的基因大小,单位为Mb。 7. 数据分析和解释:根据计算得到的肿瘤突变负荷数据,进行数据分析和解释,例如与临床特征和预后相关性的分析。 需要注意的是,转录测序评估肿瘤突变负荷可能会受到样本来源、测序平台、数据处理等因素的影响,因此需要进行标准化和质量控制,确保数据的可靠性和准确性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值