统计学之误差思维和置信区间

最新推荐文章于 2025-04-23 20:34:45 发布

irober

最新推荐文章于 2025-04-23 20:34:45 发布

阅读量5.3k

点赞数 2

分类专栏： # 数据科学概念篇机器学习基础知识

本文链接：https://blog.csdn.net/irober/article/details/116304391

版权

数据科学概念篇同时被 2 个专栏收录

23 篇文章

订阅专栏

机器学习基础知识

4 篇文章

订阅专栏

本文介绍了误差思维的概念，指出误差在测量和计算中的不可避免性。接着，详细阐述了统计学中的置信区间和置信水平，解释了如何利用样本数据来估算总体参数的可能范围，并通过一个大样本计算置信区间的实例，展示了计算过程。最后，总结了计算置信区间的步骤，强调了置信水平与置信区间的关联。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、误差思维

一个量在测量、计算或观察过程中由于某些错误或通常由于某些不可控制的因素的影响而造成的变化偏离标准值或规定值的数量，误差是不可避免的。只要有估计，就会有误差。

二、置信区间和置信水平

置信区间： 在统计学中，一个概率样本的置信区间（英语：Confidence interval，CI），是对产生这个样本的总体的参数分布（Parametric Distribution）中的某一个未知参数值，以区间形式给出的估计。换句话说，在某一置信水平下，样本统计值与总体参数值间误差范围。一般我们用中括号[a,b]表示样本估计总体平均值误差范围的区间。a、b的具体数值取决于你对于"该区间包含总体均值"这一结果的可信程度，因此[a,b]被称为置信区间。

置信水平： 置信水平是指总体参数值落在样本统计值某一区内的概率；（区间包含总体平均值的概率p（a<样本平均值<b）=Y%）

置信区间越大，置信水平越高。

三、置信区间的计算：

大样本如何计算置信区间？
大样本：当一个抽样调查的样本数量大于30。可以近似看出样本抽样分布趋近于正态分布，因此它符合中心极限定理。

以计算全国成年男性的平均身高为例（这也可以换成传感器的位置误差等其他应用），假设抽取样本100人，平均值167.1cm，标准差0.2cm。

1. 确定问题

计算全国成年男性的平均身高范围及精度

2. 求样本的平均值和标准误差

可参考:关于样本标准差（SD）与样本标准误差（SE）

标准差是描述观察值(个体值)之间的变异程度（例如一个人打十次靶子的成绩，这时有一个平均数8，有一个反映他成绩稳定与否的标准差）；
标准误是描述样本均数的抽样误差（例如十次抽样，每次他成绩平均数（7,8,6,9,5,6,7,7,8,9）的标准差，也就是抽样分布的标准差）；
样本的标准误差为:
$SE=\frac{s(样本标准差)}{\sqrt{n}}$

3. 确定置信水平

这里选常用置信水平95%，即精度为2个标准误差范围内：

在这里插入图片描述

4. 求出置信区间上下限的值

（1）由于选用的样本大小为100大于30符合正态分布，先求出如下图中两块红色区域面积（概率）：
在这里插入图片描述
（2）通过查z表格查出标准分Z=-1.96

（3）求出a和b的值的方法：

（4）根据中心极限定理，样本平均值约等于总体平均值，最终求出a和b的值：

在这里插入图片描述
结论：当我们选用置信水平为95%时，求得置信区间为[167.0608,167.1392]，即在两个标准误差范围内，全国成年男性的平均身高为167.0608cm到167.1392cm之间。
5. 常用置信水平及其对应Z值（标准分）

5.计算置信区间的套路

从上面的例子来看，计算置信区间的套路如下：
1.首先明确要求解的问题。比如我们的例子，就是想通过样本来估计全国人民身高的平均值。
2.求抽样样本的平均值与标准误差(standard error)。注意标准误差与标准差(standard deviation)不一样。
3.确定需要的置信水平。比如常用的95%的置信水平，这样可以保证样本的均值会落在总体平均值2个标准差得范围内。
4.查z表，求z值。
5.计算置信区间
a = 样本均值 - z标准误差
b = 样本均值 + z标准误差

用公式表示置信区间：
$\overline{x}\pm z\frac{s}{\sqrt{n}}$
其中， $\overline{x}$ 表示样本的均值， $z$ 值表示有多少标准差， $s$ 为样本的方差。