统计学基础(二)

中心极限定理

演示中心极限定理

中心极限定理Central Limit Theorem:设从均值为μ、方差为σ^2
(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ^2/n的正态分布。

  • 注意:原来的分布不一定要符合正态分布,可以是任何的分布,可以是离散也可以是连续,即无要求。n为sample size,每次取n个样本,每次样本的mean,分别为: 。这些样本均值的分布似正态分布。当n到达一定大时,sample mean的频率分布很好符合normal distribution。

  • 简单来说:
    1)样本平均值约等于总体平均值。

    2)不管总体是什么分布,任意一个样本平均值都会围绕在总体平均值周围,并且呈正态分布。

在同样取样次数,例如取10000次样本均值,n越大,skew和kurtosis越接近零,说明n越大,越接近正态分布。这个可以想象,n=1,就如同原来的分布,n→∞时,mean就是μ,无方差的正态分布,直线一条。

1)根据中心极限定理,我们可以得出的第1个结论是:用样本来估计总体。任何一个样本的平均值将会约等于其所在总体的平均值。
2)根据总体的平均值和标准差,判断某个样本是否属于总体。
https://www.zhihu.com/question/22913867/answer/250046834

置信区间

  • 用样本统计量来估计总体参数
  • 区间估计:给定置信水平,根据估计值确定真实值可能出现的区间范围,该区间通常以估计值为中心,该区间则为置信区间。
  • 置信区间:描述一个区间有多大的概率包含未知参数,或者说未知数落在某个误差范围的几率。
    一般我们用中括号[a,b]表示样本估计总体平均值误差范围的区间。a、b的具体数值取决于你对于”该区间包含总体均值”这一结果的可信程度,因此[a,b]被称为置信区间。
  • 置信水平:一般来说,选定某一个置信区间,我们的目的是为了让”ab之间包含总体平均值”的结果有一特定的概率,这个概率就是所谓的置信水平。

https://blog.csdn.net/bitcarmanlee/article/details/82709774
https://blog.csdn.net/qq_40597317/article/details/80639885

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值