中统计本周周一到周日数据_试验数据统计中常用的 量,图,和线--再也不担心文章的统计用图了!...

5186baf3d97dc61675d9b942f4e94e32.png

我们前几天推送了Graphpad prism的简明使用教程(科研论文作图之Graphpad Prism )。有个小伙伴问我们在他的论文中该使用那个图比较好。小编想起来以前写过一些相关的推送,今天就先跟大家详细总结一下我们试验数据统计中常用的 量,图,和线。有了这些基本知识,再结合我们上边介绍的软件,相信可以解决大部分的一般统计图表问题。

如果不想看下边的长篇大论,请看小编给您总结的懒人包:

7181ba9ebf2cd6b98371cb618fed1dfc.png

标准差:
群体的标准差是群体中所有数据方差的平方根,它衡量的是群体中某个测量值的离散程度。

83fd2225142b3bf0a72bd90bd04e16a6.png

我们可以看到下面左图中三个群体(正态分布曲线)的某个测量值的均值是相同的(x = u),但测量值的离散程度不同(标准差不同)。右边的图大家应该比较熟悉,它的意义是判断某个值是否是小概率事件,比如某个个体的测量值在三个标准差之外,我们就说这个数据点是个小概率事件(p< 0.01),在我们试验中也即意味着这个数据是个outlier,很有可能是混杂的种子,或者是测量出错了,数据输错了。

13c19af9dd9224f3ccc0807fbf0db571.png

用于描述这种测量值离散程度的图大多为Histogram(直方图)和Box plot(箱式图)。我们以后再介绍这两个图,尤其箱式图,是一个很不错的工具。

这里要特别提醒一下:以上举的例子是以整个群体为对象的,但在我们实际操作过程中,我们拿到的数据一般都只是一个群体中的一部分样本(比如一个200个RIL的作图panel是从所有可能的RIL个体中随机挑选出来的),对于样本的标准差的公式如下:分子是n-1,而不是n。所以大家在Excel中计算SD的时候应该用STDEV.S,而不是STDEV.P。

5b3648bd91bb26bcd2e750b2a5e481c6.png

均值的标准误:

接下来我们来看标准误。标准误衡量的是样本均值的离散程度,可以用来衡量样本的均值和整个群体实际均值之间的差别。也就是标准误越小,就说明样本的均值越接近于整个群体实际的均值。下面是标准误的计算公式,我们可以看到所取的样本量越大,标准误就越小,我们得到的均值就越接近于整个群体实际的均值。

7ed6423484e8c6110ffc4004e97e9b50.png

基于SEM的这个统计学意义,当我们用t-test 测验两个样本均值是否有差异时,在均值上添加SEM更恰当,而非SD。当然,不得不说的是,现在大部分RNA表达的图都是用柱状图和标准差来做,我想其中一个罪魁祸首就是Excel吧,竟然没有直接SEM的计算公式,我以前用Excel处理数据时就只知道Average和SD,自然而然的就就采用这两个来做图了。另外一个原因也是现实情况所致,当一个试验的样本量特别大的时候,SEM就会非常小,甚至接近于0,画在柱状图上就看不到了,这也是有人选择标准差做error bar的原因吧。

均值的置信区间:

另外描述均值分布的还有均值的置信区间(Confidence Interval of the mean),用来估计均值误差范围的区间。它的计算公式如下:

db50e3e11ad0e434e047829e05cc4f0e.png

其中S/√n为标准误,t = TINV(0.05, N-1), N 为样本大小,在Excel中输入此公式就可以得到t值,然后再代入均值置信区间的公式。从下面的t表来看,当样本量足够大时,t接近c的值1.96(a=0.05),这个c值用于大家平常在网上查到的均值置信区间的公式(如下),但我们平常的试验单因素样本量很少能达到500,所以此公式慎用。

3abb2d33a5863c508104aa0df7d3b3c6.png

至于原因以及关于均值置信区间的计算公式的推导,具体参考这篇文章:置信区间的求法

08b43729e6cba4c5621ebb7b4a8d1584.png

另外,从这个表中,我们也可以看到,当样本量小于10的时候,置信区间范围将比SD还要大。大家可以根据SD,SEM和CI of the mean三者的公式自行推算。

这里要注意标准误(Standard Error:SE)和置信区间(Confidence Interval:CI)都只是一个统称,它们既可以描述均值,也可以描述中位数,甚至可以描述标准差。也就是说在文章中SE和CI后面一定要有定语。只有当它们用于描述均值的时候才成了Standard Error of the mean(SEM)和CI of the mean。

另一点要注意的是:判断两组数据的均值差异是否显著,不能只看均值大小,误差线,或者p值;而是应该结合起来看:当样本比较少时,标准误也就大,这时计算的p value可能不显著,但增加了样本数量后,标准误降低了,p值可能就显著了。

小提琴图示例

说了这么多理论,下面我们用三种图(柱状图,点状图和小提琴图)来展示一下SD, SEM,和CI of the mean 之间的区别。下面用到了三组数据:左边的和右边两组是极显著差异,右边两组没有显著差异。

1.左图是柱状图加SD,右边是小提琴图加SD。本来好好的极显著差异就这样被埋没了:尤其是柱状图加SD,很难看出极显著。

568b76f4a5993473f612863b95c274b9.png

2.左图是柱状图加SEM,右边是小提琴图加SEM。加SEM显然要比SD“好看”很多。尤其是小提琴图,由于比柱状图在纵坐标上有优势,看起来就是极显著。但加SEM也有“缺点”,第二组和第三组数据的均值有差异,而且SEM没有重叠,给人一种二者也是显著差异的感觉。

db5a113bd7567dd6e1550b1d3ff78238.png

3.左图是柱状图加CI of the mean,右边是小提琴图加CI of the mean。对于这三组数据,最佳方案就是均值加均值的置信区间了。完美的避免了上面所提到的缺点:既可以明显看出极显著差异,又可以化解不显著的差异。

8bdff6603d0c0f1f9cb7275c597605ba.png

有没有老师告诉过你:误差线重叠,差异就不显著了!下面我们给你总结了最全面的说法:

置信区间没有重叠,二者肯定有显著差异。但置信区间有重叠,不一定说明二者没有显著差异。

标准误有重叠,二者肯定没有显著差异。但标准误没有重叠,不能说明二者就一定有显著差异。

点状图示例:

另一组示例,还是左边的和右边两组是极显著差异,右边两组没有显著差异。这个示例主要是看当样本量很小时(比如RNA 表达实验),采用SEM更恰当,因为CI of the mean太大了。。。三个图从左到右依次为点状图加SD,SEM,和CIof the mean.

0d453886017fc7c3530a1ab670256ce6.png

相关推送

1、 试验数据统计中常用的 量,图,和线--再也不担心文章的统计用图了!

2、试验研究中的利器--强大的直方图和箱线图


好了本期的文章就到这里了,欢迎大家评论区讨论~

每周一篇研究生科研经验分享,每周五篇文章教你写SCI论文,欢迎关注专栏:

投必得科研软件安装使用手册; 投必得:SCI期刊介绍与选择; 投必得,教你写论文;投必得统计分析大讲堂

这里是论文编辑润色专家,输出科研干货的投必得,我们下篇文章再见ヾ( ̄▽ ̄)Bye~Bye~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值