使用TransDecoder预测CDS
TransDecoder按照其官网的说明,主要用于识别转录本序列中的潜在的编码区域,也就是预测CDS。转录本可以由RNA-Seq数据通过Trinity组装来的,也可以由RNA-Seq比对到参考基因组上构建的转录本。
最新版本的TransDecoder可在此处找到。
TransDecoder识别可能的编码区域是基于以下几个标准:
-
在转录本序列中发现一个最小长度的开放阅读框(ORF)
-
类似于GeneID软件计算的对数似然分数>0
-
当ORF在第一个阅读框中得分时,与其他5个阅读框中的得分相比,上述编码得分最高
-
如果发现一个候选ORF被另一个候选ORF的坐标完全封装,则报告较长的ORF。然而,一个转录本可以报告多个ORF(允许操纵子、嵌合体等)
-
建立/训练/使用PSSM来完善起始密码子预测。
-
可选:假定肽与噪声截止分数以上的Pfam结构域匹配
Step 1: 提取长开放阅读框
TransDecoder.LongOrfs -t target_transcripts.fasta
默认情况下,TransDecoder.LongOrfs将识别至少100个氨基酸长的ORF。您可以通过’-m’参数降低