RNA-seq中的基因表达量计算和表达差异分析

最新推荐文章于 2025-03-28 17:55:04 发布

宁生信

最新推荐文章于 2025-03-28 17:55:04 发布

阅读量7.2w

点赞数 16

分类专栏： RNAseq

本文链接：https://blog.csdn.net/sinat_38163598/article/details/73008592

版权

差异分析的步骤：
1）比对；
2） read count计算；
3） read count的归一化；

4）差异表达分析；

背景知识：
1）比对：
普通比对： BWA，SOAP
开大GAP比对：Tophat（Bowtie2）；
2） Read count(多重比对的问题）：
丢弃
平均分配
利用Unique region估计并重新分配
表达量计算的本质
目标基因表达量相对参照系表达量的数值。
参照的本质：
（ 1）假设样本间参照的信号值应该是相同的；
（ 2）将样本间参照的观测值校正到同一水平；
（ 3）从参照的数值，校正并推算出其他观测量的值。

例如：Qpcr:目标基因表达量（循环数）相对看家基因表达量（循环数）；RNA-seq:目标基因的表达量（测序reads数），相对样本RNA总表达量（总测序量的reads数），这是最常用的标准。
归一化的原因及处理原则：
1）基因长度
2）测序量
3）样本特异性（例如，细胞mRNA总量，污染等）前两者使用普通的RPKM算法就可以良好解决，关键是第三个问题，涉及到不同的算法处理。

RNA-Seq归一化算法的意义：
基因表达量归一化：在高通量测序过程中，样品间在数据总量、基因长度、基因数目、高表达基因分布甚至同一个基因的不同转录本分布上存在差别。因此不能直接比较表达量，必须将数据进行归一化处理。

RNA-seq差异表达分析的一般原则
1）不同样品的基因总表达量相似
2）上调差异表达与下调差异表达整体数量相似（上下调差异平衡）
3）在两组样品中不受处理效应影响的基因，表达量应该是相近的（差异不显著）。
4）看家基因可作为表达量评价依据（待定）