背景
RNA-seq,即通过高通量测序技术进行的转录组测序分析技术。最初作为研究mRNA,small RNA,non-coding RNA 等表达水平、表达差异基因的应用,在过去的十几年内迅速发展。而今, RNA-seq 在转录本变异、基因融合、可变剪切检测等场景均有大规模的应用。靶向 RNA-seq 则是对特定的转录本进行重点分析,与标准RNA-seq 类似,靶向富集方法可用于评估基因表达、 RNA 种类分析,以及基因融合和突变检测,但相比标准RNA-seq,具有高灵敏度、宽动态范围、低成本与高通量等优势。
STAR 作为一款经典的比对软件,在科研与临床 RNA 测序数据分析中有着广泛的应用。相较于同样经典的 Tophat2 与 HISAT2,STAR 拥有更高的 unique mapping 比例,且对 more soft-clipped 和错配碱基比对有较高的容忍度,适用于更加复杂的分析需求。因此 STAR 成为 ENCODE 计划的御用比对软件。为了克服 STAR 运行耗时较长的弊端,Sentieon开发了对应的加速模块 Sentieon-STAR,以期缩短软件的运行时间。纳昂达利用开发的多款靶向捕获 panel 的靶向 RNA-seq 数据,对 Sentieon-STAR 相比开源 STAR 在 RNA 变异检测、基因表达定量、可变剪切检测和融合基因检测多个方面的表现进行了评估。
转录本变异检测是指通过比较样本 RNA 序列和参考基因组对应序列,来寻找单碱基多态性和小片段的插入缺失,其结果大多用于致病位点的判断或性状相关的研究。
融合基因是指两个或多个基因首尾相连,置于同一套调控序列控制之下构成的嵌合基因,其表达产物为融合蛋白。融合基因的检测在某些癌症中成为了重要的检测指标。
可变剪接,或称选择性剪接,即主要基因或者 mRNA 前体转录所产生的 RNA 的外显子以多种方式通过 RNA 剪接进行重连,由此产生的不同的mRNA可能被翻译成不同的蛋白质异构体,多数情况下这些异构体的结构与功能均有差异。可变剪接可用于研究同基因的不同转录本表达差异对性状的影响。
分析流程