许多paper里经常能看到Mean±SD(SE)这样的表达方式,或者在图表里用SD或者SE来表示error bar,用SD的居多,但是也有不少用SE的。初学者很容易混淆SD(standard deviation)和SE(standard error)。
SD
SD我们都很清楚,是表达数据的离散程度,然后实际应用中很多数据具有近似正态分布的概率分布,有了SD,我们就可以大致估计数据的范围,譬如经典的"68-95-99.7法则",即约 68% 数值分布在距离平均值有 1 个标准差之内的范围,约 95% 数值分布在距离平均值有 2 个标准差之内的范围,以及约 99.7% 数值分布在距离平均值有 3 个标准差之内的范围。如下图:
SE
SE是什么呢,一般来说,自然界里很难获得总体数据,我们只能用样本(无论是各种实验还是社会调查抽样)去近似估计总体,这样问题就来了,估计的准不准(平均值)?
我们可以理论上这样做,既然不能获得总体,我们可以尽可能多(无限)的从标准差为σ的总体数据里抽取大小为 n 的样本,每个样本各有一个平均值,所有样本平均值的标准差就可以用"68-95-99.7法则"评估准不准了(这就是所谓的置信区间),样本平均值的标准差可以被证明如下公式表达: