中心极限定理
中心极限定理Central Limit Theorem:设从均值为μ、方差为σ^2
(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ^2/n的正态分布。
-
注意:原来的分布不一定要符合正态分布,可以是任何的分布,可以是离散也可以是连续,即无要求。n为sample size,每次取n个样本,每次样本的mean,分别为: 。这些样本均值的分布似正态分布。当n到达一定大时,sample mean的频率分布很好符合normal distribution。
-
简单来说:
1)样本平均值约等于总体平均值。2)不管总体是什么分布,任意一个样本平均值都会围绕在总体平均值周围,并且呈正态分布。
在同样取样次数,例如取10000次样本均值,n越大,skew和kurtosis越接近零,说明n越大,越接近正态分布。这个可以想象,n=1,就如同原来的分布,n→∞时,mean就是μ,无方差的正态分布,直线一条。
1)根据中心极限定理,我们可以得出的第1个结论是:用样本来估计总体。任何一个样本的平均值将会约等于其所在总体的平均值。
2)根据总体的平均值和标准差,判断某个样本是否属于总体。
https://www.zhihu.com/question/22913867/answer/250046834
置信区间
- 用样本统计量来估计总体参数
- 区间估计:给定置信水平,根据估计值确定真实值可能出现的区间范围,该区间通常以估计值为中心,该区间则为置信区间。
- 置信区间:描述一个区间有多大的概率包含未知参数,或者说未知数落在某个误差范围的几率。
一般我们用中括号[a,b]表示样本估计总体平均值误差范围的区间。a、b的具体数值取决于你对于”该区间包含总体均值”这一结果的可信程度,因此[a,b]被称为置信区间。 - 置信水平:一般来说,选定某一个置信区间,我们的目的是为了让”ab之间包含总体平均值”的结果有一特定的概率,这个概率就是所谓的置信水平。
https://blog.csdn.net/bitcarmanlee/article/details/82709774
https://blog.csdn.net/qq_40597317/article/details/80639885