学习笔记 — RNA-Seq的基本原理

一、组学概念和思考

1. 组学:Omics 是一种系统生物学的研究方法,从整体出发,系统地对生物体内某一类分子族群全面研究,突破了传统的单分子研究限制。

打个比方:曾经科研大多以单个分子的研究入手,比如探究某个蛋白在某种疾病中的作用,但是这种单一的探究具有局限性,是否还会有别的蛋白影响其在疾病发生中的调控作用呢?

那引入组学的概念,可以将所有的蛋白scan一遍,看看哪些蛋白对该通路有影响或者某些蛋白之间有相互作用。

个人理解,组学分析不仅可以较为全面的探究一个问题,还可以为水文章提供便利,没有思路,全基因组测一遍,实验组和对照组总能找到具有差异的marker,这不就有新的研究思路了~~~

2. 转录组:研究生物体中所有转录产物(RNA)的种类和数量,特别是mRNA,因此了解基因表达的调控。

这里的转录组研究就涉及到接下来要学习的RNA-Seq了。

二、RNA-Seq的工作流程

RNA-Seq大致流程可以分为三步。

1. 制备cDNA文库:将RNA切成小片段,再反转录成为cDNA构建测序的文库,对文库质控。

转接子链接效率不是100%,只有添加了转接头的片段才能被扩增,因此要进行质量控制,确定文库片段的长度和浓度 。

2. 文库测序:测序读取的片段称作reads,原始测序文件Rawdata,也就是.fastq格式文件。

测序完成后,将reads与基因组进行比对和匹配,确定各个片段对应在基因组上的位置,并计数每个基因的reads总数,也就是在原始数据中的counts。

Rawdata(.fastq文件)的解释:

@A00184:675:HKHGGDSXY:2:1101:1181:1000 1:N:0:AGTGGCTA+CCAAGGAT
CCTCCATCAGGTATTGCTCCAGGGACACTGGGTGCTTGATGTAGACATTGGTCTGTATGTCCTTGGCAGGCAGCCGCTCCAACTCCGTGTGGAACTCAGCCACCCGGTTCTGGGACAGCAGGAAGAGGAGGTTGAGGCCCAAGAGCTGGT
+
,::FFF:::FFFFFFF:F:F:FFFF:F:FFFFFF:FFFFFFFFFFFFFFFFF:FFFFFFFF,FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF,F:FFFFF::FFFFF:FFFFFFFFFFFF,,FFFFFFFFFFFFFF:FFFFFFFFFFF
@A00184:675:HKHGGDSXY:2:1101:1615:1000 1:N:0:AGTGGCTA+CCAAGGAT
AGGAGGACGACGGACGGACGGACGGACGGGCCGCGGACGGGCGGACGGGAGGGAGCGAGCGGGCGCGGGGGCGGCGGCCGGGACCGGTGGGGCCGGGGCGGGGCGCGGCGAACCGGACGCCCCAACCACCCGCCCCCCCCCCGCCACCAC
+
:FFFFF:FFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF,FFFF,F:FF,FF,FFFFFF,:,F,,F::,FF

第一行:一般以@开头,对应每一条read,是其唯一的ID标识符,在.fastq文件中不会重复。
第二行:对应read的碱基序列,N代表测序时无法被识别出来的碱基(illumina测序的接头)。
第三行:+号的空行。
第四行:read的质量评分,ASCII码表示,每个字符对应被测序碱基的质量评分,表示测序的可靠度。

3. 数据分析及可视化进行基因差异表达分析、通路富集分析等

 三、转录组数据标准化

由于counts受到测序深度基因长度、文库复杂度的影响,不适合直接用于比较不同样本或基因之间的表达量差异,通常需要标准化为RPKM、FPKM、TPM、CPM来消除这些因素的影响。

1. CPM (Counts Per Million)

每百万reads计数, 是一个基本的基因表达单位,仅测序深度进行标准化

2. RPKM (Reads Per Kilobase of transcript per Million mapped reads) FPKM (Fragments Per Kilobase of exon model per Million mapped fragments)

每千碱基的转录每百万映射读取的reads 和 每千个碱基的转录每百万映射读取的fragments,均测序深度测序长度进行了标准化

RPKM和FPKM的区别:

FPKM是双端测序,一个fragment得到两条reads,reads数是fragment数的2倍;

RPKM是单端测序,一个fragment得到一条reads,fragments数与reads数相等;

由于后期质控等处理,FPKM的两条reads不一定全部用于分析,所以实际fragments数为reads数的1~2倍;

因此FPKM是以fragment为准,PRKM才是以reads数为准;

3. TPM (Transcripts Per Kilobase of exon model per Million mapped reads)

每千碱基的转录每百万映射读取的transcripts,因此TPM也对样本基因的测序深度测序长度进行了标准化

TPM和RPKM的区别在于TPM最后校正转录本的测序深度,因此样本的总counts数一致,最后总TPM在个样本间也是一致的,而RPKM最后标化转录本长度,所以样本间总的RPKM不一致,因此TPM很有利于比较相同基因不同样本间的表达差异

到这里,基本的概念和数据类型理清楚,接下来就可以进行差异基因表达分析了。

如有不准确的地方,敬请指出,欢迎大家在评论区讨论留言~

下一次分享差异基因表达分析及可视化呈现~

感兴趣的同学,可以帮忙点赞、关注、收藏哦~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值