经常会遇到有人问条形图上误差线画什么的问题,有人说标准差(sd),有人说标准误(se),有的直接说置信区间(CI),其实这倒也不是什么大问题,你按什么画就在文章中注明就是了。后来看到JCB上有一篇科普文章,分析的比较到位,就把里面的干货跳出来翻译一下并对其中的难点进行解读,既是总结也是提高,懒得看过程可直接看文末的规则。概念问题误差线种类描述公式范围描述性极值间距离$x_{max}-x_{min}$
标准差描述性数据点与均值的平均差异$SD =\sqrt{\frac{\sum_{}{}{(x-\bar{x})}{2}}{n-1}}$
标准误推断性重复多次均值的变化$SE = \frac{SD}{\sqrt{n}}$
置信区间(95%)推断性一个有95%信心出现均值的范围$\bar{x}\pm {t}_{n-1} \times SE$标准差
标准差是描述性统计里用来表示数据本身均值范围的,两倍标准差范围以外就可能是异常值了,标准差的使用不牵扯均值对比推测,仅仅是描述性的。样本标准差会随着样本数增加接近总体标准差,可用来作为总体标准差的估计,不随样本数变化而变化。既然随着样本数增加样本标准差与总体标准差是一致的,怎么又说不随样本数变化?
你可以这样理解,总体方差是客观存在的,我们用样本去对总体方差进行估计,具体的算法就是上面那个公式,可用点估计方法自行推导,得到的就是一个接近总体方差的数,这个数当然不会随样本数发生变化了。至于说公式,要记住伴随样本数增大,分子也在增大,所以整体上这个数是不会随样本数发生变化,毕竟只是一个估值无偏性的问题。标准误
置信区间是针对均值自身而言的,是对均值真实值出现范围的估计&#x