关于样本标准差（SD）与样本标准误差（SE）

最新推荐文章于 2024-03-28 00:11:31 发布

irober

最新推荐文章于 2024-03-28 00:11:31 发布

阅读量8.6k

点赞数

分类专栏： # 数据科学概念篇

原文链接：https://www.jianshu.com/p/bd1cb90568d6

版权

数据科学概念篇专栏收录该内容

23 篇文章

订阅专栏

关于样本标准差（SD）与样本标准误差（SE）

许多paper里经常能看到Mean±SD（SE）这样的表达方式，或者在图表里用SD或者SE来表示error bar，用SD的居多，但是也有不少用SE的。初学者很容易混淆SD（standard deviation）和SE（standard error）。

SD

SD我们都很清楚，是表达数据的离散程度，然后实际应用中很多数据具有近似正态分布的概率分布，有了SD，我们就可以大致估计数据的范围，譬如经典的"68-95-99.7法则"，即约 68% 数值分布在距离平均值有 1 个标准差之内的范围，约 95% 数值分布在距离平均值有 2 个标准差之内的范围，以及约 99.7% 数值分布在距离平均值有 3 个标准差之内的范围。如下图：

SE

SE是什么呢，一般来说，自然界里很难获得总体数据，我们只能用样本（无论是各种实验还是社会调查抽样）去近似估计总体，这样问题就来了，估计的准不准（平均值）？
我们可以理论上这样做，既然不能获得总体，我们可以尽可能多（无限）的从标准差为σ的总体数据里抽取大小为 n 的样本，每个样本各有一个平均值，所有样本平均值的标准差就可以用"68-95-99.7法则"评估准不准了（这就是所谓的置信区间），样本平均值的标准差可以被证明如下公式表达：

但由于通常σ为未知，此时可以用研究中取得样本的标准差 (S) 来估计：

这就是SE的来源，即 样本平均值的SD，我们用MATLAB编程演示下。

MATLAB演示

以掷硬币为例，掷100次，统计正面（1）的次数，共统计1000次作为一个sample，然后我们这样采1000个sample（程序不怕累的）。
先贴结果，代码放后面。结果如下，我们能看到样本平均值的SD基本等于样本的SE！

完整代码如下：

%1000个样本（sample）
sample_mean = []

for m=1:1000
    
    %掷硬币100枚，统计正面的次数，共统计1000次作为一个sample
    sample = []
    for i = 1:1000
        box = randi([0,1],100,1);
        sample = [sample length(box(box==1))];    
    end
    sample_mean = [sample_mean mean(sample)];
end

%sample的标准差和标准误
SD_sample = std(sample)
SE_sample = SD_sample/sqrt(1000)
%sample平均值的标准差
SD_sample_mean = std(sample_mean)