一、组学概念和思考
1. 组学:Omics 是一种系统生物学的研究方法,从整体出发,系统地对生物体内某一类分子族群的全面研究,突破了传统的单分子研究限制。
打个比方:曾经科研大多以单个分子的研究入手,比如探究某个蛋白在某种疾病中的作用,但是这种单一的探究具有局限性,是否还会有别的蛋白影响其在疾病发生中的调控作用呢?
那引入组学的概念,可以将所有的蛋白scan一遍,看看哪些蛋白对该通路有影响或者某些蛋白之间有相互作用。
个人理解,组学分析不仅可以较为全面的探究一个问题,还可以为水文章提供便利,没有思路,全基因组测一遍,实验组和对照组总能找到具有差异的marker,这不就有新的研究思路了~~~
2. 转录组:研究生物体中所有转录产物(RNA)的种类和数量,特别是mRNA,因此了解基因表达的调控。
这里的转录组研究就涉及到接下来要学习的RNA-Seq了。
二、RNA-Seq的工作流程
RNA-Seq大致流程可以分为三步。
1. 制备cDNA文库:将RNA切成小片段,再反转录成为cDNA构建测序的文库,对文库质控。
转接子链接效率不是100%,只有添加了转接头的片段才能被扩增,因此要进行质量控制,确定文库片段的长度和浓度 。
2. 文库测序:测序读取的片段称作reads,原始测序文件Rawdata,也就是.fastq格式文件。
测序完成后,将reads与基因组进行比对和匹配,确定各个片段对应在基因组上的位置,并计数每个基因的reads总数,也就是在原始数据中的counts。
Rawdata(.fastq文件)的解释:
@A00184:675:HKHGGDSXY:2:1101:1181:1000 1:N:0:AGTGGCTA+CCAAGGAT
CCTCCATCAGGTATTGCTCCAGGGACACTGGGTGCTTGATGTAGACATTGGTCTGTATGTCCTTGGCAGGCAGCCGCTCCAACTCCGTGTGGAACTCAGCCACCCGGTTCTGGGACAGCAGGAAGAGGAGGTTGAGGCCCAAGAGCTGGT
+
,::FFF:::FFFFFFF:F:F:FFFF:F:FFFFFF:FFFFFFFFFFFFFFFFF:FFFFFFFF,FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF,F:FFFFF::FFFFF:FFFFFFFFFFFF,,FFFFFFFFFFFFFF:FFFFFFFFFFF
@A00184:675:HKHGGDSXY:2:1101:1615:1000 1:N:0:AGTGGCTA+CCAAGGAT
AGGAGGACGACGGACGGACGGACGGACGGGCCGCGGACGGGCGGACGGGAGGGAGCGAGCGGGCGCGGGGGCGGCGGCCGGGACCGGTGGGGCCGGGGCGGGGCGCGGCGAACCGGACGCCCCAACCACCCGCCCCCCCCCCGCCACCAC
+
:FFFFF:FFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF,FFFF,F:FF,FF,FFFFFF,:,F,,F::,FF
第一行:一般以@开头,对应每一条read,是其唯一的ID标识符,在.fastq文件中不会重复。
第二行:对应read的碱基序列,N代表测序时无法被识别出来的碱基(illumina测序的接头)。
第三行:+号的空行。
第四行:read的质量评分,ASCII码表示,每个字符对应被测序碱基的质量评分,表示测序的可靠度。
3. 数据分析及可视化:进行基因差异表达分析、通路富集分析等
三、转录组数据标准化
由于counts受到测序深度、基因长度、文库复杂度的影响,不适合直接用于比较不同样本或基因之间的表达量差异,通常需要标准化为RPKM、FPKM、TPM、CPM来消除这些因素的影响。
1. CPM (Counts Per Million)
每百万reads计数, 是一个基本的基因表达单位,仅对测序深度进行标准化。
2. RPKM (Reads Per Kilobase of transcript per Million mapped reads) 和 FPKM (Fragments Per Kilobase of exon model per Million mapped fragments)
每千碱基的转录每百万映射读取的reads 和 每千个碱基的转录每百万映射读取的fragments,均对测序深度和测序长度进行了标准化。
RPKM和FPKM的区别:
FPKM是双端测序,一个fragment得到两条reads,reads数是fragment数的2倍;
RPKM是单端测序,一个fragment得到一条reads,fragments数与reads数相等;
由于后期质控等处理,FPKM的两条reads不一定全部用于分析,所以实际fragments数为reads数的1~2倍;
因此FPKM是以fragment为准,PRKM才是以reads数为准;
3. TPM (Transcripts Per Kilobase of exon model per Million mapped reads)
每千碱基的转录每百万映射读取的transcripts,因此TPM也对样本基因的测序深度和测序长度进行了标准化。
TPM和RPKM的区别在于TPM最后校正转录本的测序深度,因此样本的总counts数一致,最后总TPM在个样本间也是一致的,而RPKM最后标化转录本长度,所以样本间总的RPKM不一致,因此TPM很有利于比较相同基因在不同样本间的表达差异。
到这里,基本的概念和数据类型理清楚,接下来就可以进行差异基因表达分析了。
如有不准确的地方,敬请指出,欢迎大家在评论区讨论留言~
下一次分享差异基因表达分析及可视化呈现~
感兴趣的同学,可以帮忙点赞、关注、收藏哦~