TransDecoder识别转录本中编码区并预测蛋白

最新推荐文章于 2024-07-30 21:23:02 发布

sax_157001

最新推荐文章于 2024-07-30 21:23:02 发布

阅读量8.5k

点赞数 2

分类专栏：转录组文章标签：转录组

转录组专栏收录该内容

1 篇文章 0 订阅

订阅专栏

TransDecoder可以识别转录本序列中的编码区域，如：Trinity从头组装、Tophat和Cufflinks将RNA-Seq比对到基因组转录本结果

TransDecoder 基于以下标准识别可能的编码序列：

    1) 在转录本序列中需要能够找到一个（满足）最小（限定）长度的ORF;

    2) 对数似然数得分大于0。（与GeneID软件计算得到的得分相类似）;

    3) 第一阅读框的对数似然数打分同其它5个阅读框比较为最大值时;

    4) 如果候选的ORF完全被包含在其它候选ORF的框架内，那么报告最长的ORF。否则，一个单独的转录本会得到多个ORF的报告。（考虑到有操纵子、嵌合体等情况）;

    5) 作为可选项，预测出的多肽在Pfam domain库中存在比对分值高于得分阈值之上的。

    该软件主要由Broad Institute的Brian Haas和Commonwealth Scientific and Industrial Research Organisation的Alexie Papanicolaou维护。它被整合在其它相关的软件中：Trinity，PASA，EVidenceModeler和Trinotate。

获取TransDecoder

    TransDecoder可以在下面的网址找到：https://github.com/TransDecoder/TransDecoder/releases

    在当前安装目录下输入make进行编译 (注意: 只有cd-hit软件是编译过的，它同TransDecoder捆绑并受其调用) 。

运行TransDecoder

1. 从fasta格式文件预测编码区

    TransDecoder通过运行一个包含目的转录本序列的fasta文件来实现功能。简单的用法如下：

    # Step 1: 提取最长的开放阅读框

        TransDecoder.LongOrfs -t target_transcripts.fasta

        默认情况下，TransDecoder.LongOrfs将识别长度至少为100个氨基酸的开放阅读框。你可以通过-m参数来降低这个值，但是要知道随着最小长度的变短，ORF预测的假阳性率迅速增长。

    # Step 2: (可选)

        可选地，可以通过blast或者pfam搜索已知蛋白的同源序列来识别ORF。

        见下面的Including homology searches as ORF retention criteria章节。

    # Step 3: 预测可能的编码区

        TransDecoder.Predict -t target_transcripts.fasta [ homology options ]

       如果转录本按照有义链进行了调整，那么使用-S标记来只检查top链。完整的使用信息见后面。

       候选编码区的最终集合可以在文件.transdecoder中找到。扩展名包括.pep，.cds，.gff3和.bed。

2. 从基于基因组的转录结果GTF文件开始预测（如：cufflinks）

    这个过程等同于前面的特例。我们首先必须生成一个与转录本序列一致的fasta文件，然后，我们重新计算一个GFF3格式的基因组注释文件。该文件按基因组坐标来描述预测的编码区域。

    使用基因组和转录本gtf文件来构建转录本fasta文件的方式如下：

      util/cufflinks_gtf_genome_to_cdna_fasta.pl transcripts.gtf test.genome.fasta > transcripts.fasta

    接下来，将转录本结构GTF文件转换为一个alignment-GFF3格式的校准文件（做这步只是因为我们用gff3进行处理好于从gtf文件开始）。可以像这样完成gtf到alignment-gff3的转换，以使用cufflinks的GTF输出为例：

      util/cufflinks_gtf_to_alignment_gff3.pl transcripts.gtf > transcripts.gff3

    现在，运行前面描述的过程来生成你的最佳候选ORF的预测：

      TransDecoder.LongOrfs -t transcripts.fasta

     (optionally, identify peptides with homology to known proteins)

      TransDecoder.Predict -t transcripts.fasta [ homology options ]

    最后，生成一个基于基因组的编码区域注释文件：

      util/cdna_alignment_orf_to_genome_orf.pl transcripts.fasta.transdecoder.gff3 transcripts.gff3 transcripts.fasta > transcripts.fasta.transdecoder.genome.gff3

样本数据和运行

sample_data文件夹包含一个runMe.sh脚本。你可以运行它来验证一个从cufflinks的GTF文件开始的整个过程。注意，TransDecoder典型用法的例子是从一个包含目的转录本的fasta文件开始的。然而，在基因组分析的例子中，转录本通常是从注释的坐标中推断出来的，例如Cufflinks GTF格式的文件。在这个例子中，转录本序列是基于GTF注释坐标重构出来的，然后TransDecoder执行了这个fasta文件。我们为将转录本ORF坐标转换为基因组坐标提供了一个额外的实例，以便这些区域可以在基因组范畴内得以检验。