中心极限定理
中心极限定理是概率论中的一组定理。中心极限定理说明,在适当的条件下,大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布。这组定理是数理统计学和误差分析的理论基础,指出了大量随机变量之和近似服从正态分布的条件。
随着样本容量的增大,样本的均值近似正态分布(normal distribution)。
样本均值的抽样分布是对所有样本均值形成的分布,根据中心极限定理,样本均值的抽样分布近似服从均值为
μ
{\mu}
μ,方差为
σ
2
n
\frac{\sigma^2}{n}
nσ2的正态分布。也就是随着样本容量n的增大,抽样分布的标准差越小,越收拢。
抽样分布例题
题目描述
置信区间
置信区间是指由样本统计量所构造的总体参数的估计区间。
- 在统计学中,一个概率样本的置信区间(英语:Confidence interval,CI),是对产生这个样本的总体的参数分布(Parametric
Distribution)中的某一个未知参数值,以区间形式给出的估计。相对于点估计(Point
Estimation)用一个样本统计量来估计参数值,置信区间还蕴含了估计的精确度的信息。在现代机器学习中越来越常用的置信集合(Confidence
Set)概念是置信区间在多维分析的推广。- 置信区间在频率学派中间使用,其在贝叶斯统计中的对应概念是可信区间(Credible Interval)。两者建立在不同的概念基础上的,贝叶斯统计将分布的位置参数视为随机变量,并对给定观测到的数据之后未知参数的后验分布进行描述,故无论对随机样本还是已观测数据,构造出来的可信区间,其可信水平都是一个合法的概率;而置信区间的置信水平,只在考虑随机样本时可以被理解为一个概率。
如何理解置信区间?
假设你想知道美国有多少人热爱足球。为了得到 100% 正确的答案,你可以做的唯一一件事是向美国的每一位公民询问他们是否热爱足球。根据维基百科,美国有超过 3.25 亿的人口。与 3.25 亿人谈话并不现实,因此我们必须通过问更少的人来得到答案。
我们可以通过在美国随机抽取一些人(与更少人交谈)并获得热爱足球的人的百分比来做到这一点,但是我们不能 100% 确信这个数字是正确的,或者这个数字离真正的答案有多远。所以,我们试图实现的是获得一个区间,例如,对这个问题的一个可能的答案是:「我 95% 相信在美国足球爱好者的比例是 58% 至 62%」。这就是置信区间名字的来源,我们有一个区间,并且我们对它此一定的信心。
如果样本有 95% 落在在实际百分比 -3 和 +3 之间,那么真实百分比落在样本百分比 -3 和 +3 之间的概率为 95%。
如果我们抽取一个样本,得到了 63%,那么我们可以说我们 95% 确信实际比例在 60%(63-3)和 66%(63 + 3)之间。
这就是置信区间,区间为 63 + -3,置信度为 95%。