RNA-seq Review:RNA-seq数据分析

文献:RNA-seq数据分析最佳实践调查


本次阅读 Genome Biology杂志 2016年Online的RNA-seq数据分析方法的 Review论文,题目为:
A survey of best practices for RNA-seq data analysis
本文翻译来自该文章。

RNA是基因组和蛋白组的中间体,因此转录本的鉴定和定量是重要的生物学问题。该论文综述了RNA-seq项目中相关的各个步骤、每个步骤的局限、和其他组学的整合以及展望。

Note : 从摘要中可以发现本文综述分为两部分(1)现有RNA-seq数据分析各个步骤的详细描述;(2)RNA-seq与多组学技术整合和未来展望。

摘要:
RNA-seq应用广泛,但是没有一种分析流程适用于所有情况。作者综述了RNA-seq数据分析的主要步骤,包括:实验设计、质量控制、读取比对、基因和转录水平的定量、可视化、差异基因表达、可变剪接、功能分析、基因融合检测和 eQTL 定位。作者强调了每个步骤的挑战,讨论了小 RNA 的分析以及 RNA-seq 与其他功能基因组学技术的整合。
最后,作者讨论了正在改变转录组学现状的新技术的前景。

(一)实验设计:(如Fig. 1)
要以回答生物学问题为导向设计RNA-seq实验,其中主要包含文库类型测序深度重复次数

1.提取RNA
(1)OligodT富集mRNA
对于真核生物,当样本量足够时,RNA中90%以上为rRNA,通常选择OligodT富集mRNA(1-2%尾部存在PolyA结构互补)。mRNA通常容易降解,需要衡量mRNA的RNA完整指数RIN (RNA integrity number)。

(2)去除rRNA
有些活检样本不足,富集的方法提取RNA效果差。此时,选择降解rRNA来得到mRNA。对于细菌等样本,因为是原核生物,mRNA不存在PolyA的结构,上述方法同样失效,也需要通过降解rRNA得到mRNA。

2.链特异型文库
通常Illumina测序的RNA-seq数据并未区分正链和负链,这使得反义转录和重叠表达的转录本定量无法区分。通常,链特异型文库通过dUTP标记方法,随后消化包含dUTP的链,以此得到特定链的RNA文库。

对于单端测序SE(single-end)双端测序PE(paired-end),双端测序的文库更长,这样有利于转录本组装和转录本亚型(isoform)的鉴定。对于高质量的参考基因组,SE测序数据已经够用,PE测序数据对于注释不佳的基因组效果更好。发帖时(2021年),目前市场测序价格下降明显,PE数据效果更好,SE测序的应用越来越少了,已经逐渐淘汰。

3.测序深度或文库大小
最佳的测序深度取决于实验目的,通常测序深度越深定量结果越准,更多的鉴定到更多的转录本。有学者认为比对500万的reads已经足够定量中等表达和高表达的真核转录本,对于低表达的转录本需要1亿的reads。研究低复杂度的单细胞时,处理100万的reads,5万的reads已经足够定量高表达基因,甚至2万个reads可以区分组织细胞类型。

最佳的测序文库取决于目标实验的复杂度,实验证明增加测序深度确实可以改善转录本的鉴定和定量情况,但是可能会检测噪音或者脱靶转录本,饱和曲线可用于评估在给定测序深度下预期转录组覆盖率的改善

4.样本重复次数
一个关键的设计因素是重复次数。要考虑技术性重复、生物学重复和统计效力(power),这些是功效分析的一部分。充分规划测序实验以避免技术偏差与良好的实验设计同样重要,尤其是当实验涉及大量样本需要分批处理时。在这种情况下,包括对照、随机样本处理和测序运行的智能管理对于获得正确的数据至关重要。详细数据可以参考Table1信息。

在这里插入图片描述
在这里插入图片描述
(二)RNA-seq数据分析
实际上RNA-seq的分析非常多样,此部分作者主要描述了典型RNA-seq数据分析的步骤,包括质量控制有参和无参的数据比对计算基因和转录本的表达量差异表达基因鉴定。此外,作者也讨论了可变剪切转录本融合小RNA表达,最后讨论了可视化的工具包。

1.质量控制检查
RNA数据的获取包括几个部分:获取原始readsreads比对表达定量
(1)原始reads质控
原始reads的质量控制涉及序列质量GC含量接头adapter过表达的kmer重复的reads(duplicated reads),通过这些来检测测序错误PCR副产物和污染。可接受的重复,kmer和GC含量是物种特异性的,这些数据对于相同实验的样本应该保持同质。作者建议丢弃差异超过30%的异常值。

FastQC是应用于Illumina reads的,而NGSQC可以应用于任何平台。通常3’端的末端碱基的测序质量下降,如果太低,需要剔除这些碱基以提高比对效果。FASTX-Toolkit和Trimmomatic等软件工具可用于丢弃低质量reads、修剪接头序列并剔除低质量碱基。

(2)Read 比对情况衡量标准

Reads通常比对到基因组或转录组。
一个重要的参数是比对百分比,反映了整体的测序准确性和DNA污染情况。例如,期望的人类基因组中转录组的比对百分比应该为70%-90%(取决于比对软件),其中很大一部分reads均可以较好地比对到有限数量的相同区域(多比对reads,multi-mapping read

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值