学习笔记 — RNA-Seq的基本原理

扭蛋黄比腚

于 2024-09-01 23:41:07 发布

阅读量1.6k

点赞数 15

分类专栏： TCGA学习笔记文章标签：学习笔记 r语言数据分析

本文链接：https://blog.csdn.net/swangee/article/details/141684210

版权

TCGA学习笔记专栏收录该内容

4 篇文章

订阅专栏

一、组学概念和思考

1. 组学：Omics 是一种系统生物学的研究方法，从整体出发，系统地对生物体内某一类分子族群的全面研究，突破了传统的单分子研究限制。

打个比方：曾经科研大多以单个分子的研究入手，比如探究某个蛋白在某种疾病中的作用，但是这种单一的探究具有局限性，是否还会有别的蛋白影响其在疾病发生中的调控作用呢？

那引入组学的概念，可以将所有的蛋白scan一遍，看看哪些蛋白对该通路有影响或者某些蛋白之间有相互作用。

个人理解，组学分析不仅可以较为全面的探究一个问题，还可以为水文章提供便利，没有思路，全基因组测一遍，实验组和对照组总能找到具有差异的marker，这不就有新的研究思路了~~~

2. 转录组：研究生物体中所有转录产物（RNA）的种类和数量，特别是mRNA，因此了解基因表达的调控。

这里的转录组研究就涉及到接下来要学习的RNA-Seq了。

二、RNA-Seq的工作流程

RNA-Seq大致流程可以分为三步。

1. 制备cDNA文库：将RNA切成小片段，再反转录成为cDNA构建测序的文库，对文库质控。

转接子链接效率不是100%,只有添加了转接头的片段才能被扩增，因此要进行质量控制，确定文库片段的长度和浓度。

2. 文库测序：测序读取的片段称作reads，原始测序文件Rawdata，也就是.fastq格式文件。

测序完成后，将reads与基因组进行比对和匹配，确定各个片段对应在基因组上的位置，并计数每个基因的reads总数，也就是在原始数据中的counts。

Rawdata（.fastq文件）的解释：

@A00184:675:HKHGGDSXY:2:1101:1181:1000 1:N:0:AGTGGCTA+CCAAGGAT
CCTCCATCAGGTATTGCTCCAGGGACACTGGGTGCTTGATGTAGACATTGGTCTGTATGTCCTTGGCAGGCAGCCGCTCCAACTCCGTGTGGAACTCAGCCACCCGGTTCTGGGACAGCAGGAAGAGGAGGTTGAGGCCCAAGAGCTGGT
+
,::FFF:::FFFFFFF:F:F:FFFF:F:FFFFFF:FFFFFFFFFFFFFFFFF:FFFFFFFF,FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF,F:FFFFF::FFFFF:FFFFFFFFFFFF,,FFFFFFFFFFFFFF:FFFFFFFFFFF
@A00184:675:HKHGGDSXY:2:1101:1615:1000 1:N:0:AGTGGCTA+CCAAGGAT
AGGAGGACGACGGACGGACGGACGGACGGGCCGCGGACGGGCGGACGGGAGGGAGCGAGCGGGCGCGGGGGCGGCGGCCGGGACCGGTGGGGCCGGGGCGGGGCGCGGCGAACCGGACGCCCCAACCACCCGCCCCCCCCCCGCCACCAC
+
:FFFFF:FFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF,FFFF,F:FF,FF,FFFFFF,:,F,,F::,FF

第一行：一般以@开头，对应每一条read，是其唯一的ID标识符，在.fastq文件中不会重复。
第二行：对应read的碱基序列，N代表测序时无法被识别出来的碱基（illumina测序的接头）。
第三行：+号的空行。
第四行：read的质量评分，ASCII码表示，每个字符对应被测序碱基的质量评分，表示测序的可靠度。

3. 数据分析及可视化：进行基因差异表达分析、通路富集分析等

三、转录组数据标准化

由于counts受到测序深度、基因长度、文库复杂度的影响，不适合直接用于比较不同样本或基因之间的表达量差异，通常需要标准化为RPKM、FPKM、TPM、CPM来消除这些因素的影响。

1. CPM (Counts Per Million)

每百万reads计数，是一个基本的基因表达单位，仅对测序深度进行标准化。

2. RPKM (Reads Per Kilobase of transcript per Million mapped reads) 和 FPKM (Fragments Per Kilobase of exon model per Million mapped fragments)

每千碱基的转录每百万映射读取的reads 和每千个碱基的转录每百万映射读取的fragments，均对测序深度和测序长度进行了标准化。

RPKM和FPKM的区别：

FPKM是双端测序，一个fragment得到两条reads，reads数是fragment数的2倍；

RPKM是单端测序，一个fragment得到一条reads，fragments数与reads数相等；

由于后期质控等处理，FPKM的两条reads不一定全部用于分析，所以实际fragments数为reads数的1~2倍；

因此FPKM是以fragment为准，PRKM才是以reads数为准；

3. TPM (Transcripts Per Kilobase of exon model per Million mapped reads)

每千碱基的转录每百万映射读取的transcripts，因此TPM也对样本基因的测序深度和测序长度进行了标准化。

TPM和RPKM的区别在于TPM最后校正转录本的测序深度，因此样本的总counts数一致，最后总TPM在个样本间也是一致的，而RPKM最后标化转录本长度，所以样本间总的RPKM不一致，因此TPM很有利于比较相同基因在不同样本间的表达差异。

到这里，基本的概念和数据类型理清楚，接下来就可以进行差异基因表达分析了。

如有不准确的地方，敬请指出，欢迎大家在评论区讨论留言~

下一次分享差异基因表达分析及可视化呈现~

感兴趣的同学，可以帮忙点赞、关注、收藏哦~