voom: precision weights unlock linear model analysis tools for RNA-seq read counts

最新推荐文章于 2023-12-23 16:52:41 发布

wangchuang2017

最新推荐文章于 2023-12-23 16:52:41 发布

阅读量618

点赞数

分类专栏： RNA-seq

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010608296/article/details/114134220

版权

生物信息学同时被 3 个专栏收录

642 篇文章 393 订阅

订阅专栏

170 篇文章 7 订阅

订阅专栏

41 篇文章 14 订阅

订阅专栏

voom: precision weights unlock linear model analysis tools for RNA-seq read counts

标准化方式

首先在定义cpm的时候，作者利用如下公式进行计算

其中，我们在进行普通RNA-seq的时候通常会有n个sample，G个基因，那么r(gi)，g = 1—G代表基因数目，i = 1—n代表样品数目，所以r(gi)即为第i个样品中第g个基因的count数

所以R(i)表示了对于每一个样本来说，它们所有基因的count总数量，也可以理解为每个文库的大小

最后的y(gi)即代表了第i个样品中第g个基因的cpm值

假设定义λ为r(gi)的均值，我们经过数学上的变化得到上图的式子，其中当r 比较大的时候，我们可以得到这个约等式子（个人推测是拟合得到的）：

接下来有关近似处理，即var(y) = var(log2(r)) ，意思是当我取y的方差时，var(log2(R))忽略不计 ，var(6log2(10))为0

最后根据方差的线性性质结合泰勒公式就可以完美推出结果

作者做了一个关于每个基因表达水平和生物学重复间方差的关系图，其中横坐标表示每一个基因在相同处理中，各生物学重复count均值的对数值；纵坐标表示该基因在各生物学重复count的标准差

这几幅图主要描绘了每个基因在不同生物学重复简单均值和标准差之间的关系，可以了解到，随着count数的增大，该基因各生物学重复（这里指的是相同处理的生物学重复）的标准差在下降

也就是说，count值越大，某基因在各生物学重复间的波动就越小

标准化

由于voom采用的是cpm来进行定量的，所以在面对不同文库深度的数据时，影响不是很大

回顾下：

对于不同文库的不同的R(i)来说，r(gi) / R(i) 也就消除了由于文库深度所带来的影响。但是采用cpm会导致另外一个问题，即无法消除基因长度所带来的影响

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

wangchuang2017 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。