转录组测序多少生物重复合适?2个?3个?48个?

2016年英国邓迪大学的Geoffrey J Barton教授在RNA发表一篇文章专门评估这一问题。作者对野生型和snf2突变型酵母样品分别测序了48个生物学重复;质控后,野生型样品保留42个生物学重复,突变型样品剩余44个生物学重复。

在控制假阳性率为0.05的标准下,用所有可用生物重复计算出的差异基因定义为该差异基因鉴定工具的金标准差异基因集

作者评估了11个常用的差异基因分析工具,性能最好的是edgeRDESeq2limma

下面以edgeR为例展示了不同生物学重复数目对鉴定差异基因的影响。

A展示了,在控制相同的假阳性率水平下,不同的生物学重复鉴定出的差异基因数目 (nr: number of biological replicates)。作者从所有生物重复中随机抽取2组、3组、4组…生物学重复,分别计算差异基因,发现:

  1. 差异基因的数目整体与生物重复数量正相关。

  2. 差异基因数目的稳定性与生物重复数量负相关;

    生物重复较少时,不同的抽样导致的差异基因数目波动较大;

    生物重复较多时,检测出的差异基因数目受抽样影响较小,体现在柱状图数据分布更集中 (可视化之为什么要使用箱线图?)。

image

B展示了,不同生物学重复与鉴定的差异基因的真阳性率的关系。不同的实线代表不同的差异基因筛选倍数变化(T=|Log2(FC)|)条件下的真阳性率。虚线代表假阳性率,近乎一条直线,说明edgeR的假阳性率控制的还是比较好的,比较低,且不受生物重复数影响。如果筛选阈值比较高,比如4倍差异(T=2)时,较低的重复数即可获得较高的真阳性率。而筛选阈值较低(T=0)时,真阳性率受生物学重复影响较大;生物学重复越少,真阳性率越低。常规筛选标准2倍差异(T=1)时需要20个生物重复才能达到与4倍差异相同的真阳性率。

image

C则是图B的另一种展现,横轴是筛选倍数阈值 (T=|Log2(FC)|)。蓝色虚线代表3个生物重复条件下的假阳性率,在常规筛选标准2倍差异(T=1)时,假阳性率已趋近于0。不同颜色的实现代表不同生物重复下的真阳性率随筛选阈值差异倍数的变化,整体呈现正相关;且生物重复越多,真阳性率越高,并受筛选阈值影响越少。

D展示了真阳性、真阴性 (非金标准差异基因定义为真阴性(无差异)基因)、假阳性、假阴性基因数目随生物重复数的变化。生物重复越多,漏掉的差异基因(假阴性基因)越少。

image

原文:https://rnajournal.cshlp.org/content/22/6/839.long

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

生信宝典

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值