转录组测序
转录组 (transcriptome) 是指特定生物体在某种状态下所有基因转录产物的总和,转录组研究是功能基因组研究的一项重要内容,转录组是连接基因组遗传信息与生物功能 (蛋白质组) 的必然纽带。
RNA-seq也称为全转录组鸟枪测序,应用高通量测序技术对样品中的mRNA、small RNA和non-coding RNA进行测序的技术,其中针对mRNA的RNA-Seq测序即为转录组测序。
RNA-Seq可进行全基因组水平的基因表达差异研究,具有定量更准确、可重复性更高、检测范围更广、分析更可靠等特点。
除了分析基因表达水平,RNA-Seq还能发现新的转录本、SNP、剪接变体,并提供等位基因特异的基因表达,能够全面快速地获得某一物种特定组织或器官在某一状态下的几乎所有转录本序列信息,已广泛应用于基础研究、临床诊断和药物研发等领域。
转录组测序体系的设置
转录组研究基本上都是基于不同样本间基因表达水平的比较,从而识别与研究目的相关的基因及其表达变化规律,通常情况下进行转录组测序的样品可以分为如下几类:
- 时间系列:不同发育阶段、 不同处理时长样本间的比较;
- 刺激系列:特定刺激与对照样本间的比较;
- 特异系列:不同器官或组织间的比较;
- 突变系列:野生型与突变型样本间的比较;
- 互作系列:病原侵染宿主互作过程中样本的比较;
- 进化系列:不同进化或分化物种之间的比较;
- 遗传系列:亲代与子代样本间的比较;
- 性状系列:同一形状表型差异明显样本间的比较。
转录组测序重复的设置
在转录组测序过程中,由于技术误差和测序样品的个体差异,会导致最终得到的结果中,有一部分结果并不准确,因此需要通过设置重复样本以最大限度的消除误差,得到更为准确的结果。
转录组样品设置
但是需要特别指出的是,重复只能降低转录组测序所产生的误差,但是理论上无法完全消除误差。
技术误差
由于文库构建和上机测序过程中的随机因素所导致的误差称为技术误差,可以通过设置技术重复,对同一个文库进行多次测序而降低技术误差对结果的影响。
随着RNA-Seq文库构建和测序技术的成熟,目前,如果在操作中不存在人为失误的情况下,不同批次上机测序的重复性能够达到0.99以上,因此通常情况下已不需要设置技术重复。
生物学重复
由于测序样本间个体差异所导致的误差对于转录组研究结果的影响非常大,通常通过设置生物学重复的方式以降低差异基因鉴定的假阳性比例。
在统计学中,要求每组中最低包含三个样本,因此转录组测序生物学重复的最低要求是每组至少3个样本,如果样本少于三个,几乎无法进行有效的数据分析。
但通常来说,仅仅3个生物学重复是并不足够的,如果每组样本只有3个生物学重复,很可能最终会鉴定到数千个差异表达基因,而与研究目的真实相关的基因数目必然要少于坚定到的差异表达基因,这就需要研究人员具有更高的数据分析和筛选能力,并且还需要通过其它实验对转录组的结果进行验证。
生物学重复的设置是一个需要考虑研究成本、样本采集难度、数据分析能力、预期研究水平等多方因素的综合性过程,理论上说当然是越多越好,但是这并不现实。
目前来说,转录组测序推荐的生物学重复个数最好不低于6个,如果结果预期较高,那么最好设置10个以上的生物学重复,对于后续需要进行特定高级分析 (如WGCNA等) 的项目,总的测序样本数目还要达到数十个以上。