统计学知识回顾(二)

中心极限定理

  • 任何具有良好定义的具有均值与标准差的分布,随机取出 m 组样本量为 n 的样本。只要样本量 n 足够大,这些样本的均值就收敛于正态分布。

样本均值的抽样分布

  • 即原分布的抽样所得均值形成的分布

偏度

  • 正偏态分布:右侧尾部较长
  • 负偏态分布:左侧尾部较长

峰度

  • 正峰态:曲线更陡峭,尾部较长
  • 负峰态:曲线更平缓,尾部较短

抽样样本容量越大,抽样分布均值形成的分布就越趋近于正态分布,标准差越小,曲线越紧凑

均值标准误差

  • 抽样分布均值的分布标准差
  • 公式 σ X ‾ = σ n \sigma _{\overline{X}} = \frac{\sigma} {\sqrt{n}} σX=n σ

上面所提到的基础信息可以帮助我们在分布未知的情形下,利用中心极限定理来计算概率。具体步骤为:

  • 根据中心极限定理可知,在样本量足够大的前提下,原分布总体均值可近似等同于抽样分布总体均值,并通过样本量与总体标准差计算出均值标准误差
  • 计算 Z-分数,并通过查表确认偏离中心的距离,从而确定概率。注意分数表中特定的Z-分数值对应的概率为左开右闭区间

伯努利分布

  • 又名 0-1 分布,是一个离散型分布。
  • 统计量:
    • μ \mu μ = p
    • σ 2 \sigma^{2} σ2 = p(1-p)

置信区间

  • 即以概率 p 成立的误差区间。与之相对应的是置信水平,常常取值0.05。
  • 从均值标准误差的公式可以看出,抽样样本量越大,对应的标准差越小。则在同样的置信水平下,误差区间就越小,得到的估计值就越精确。例如在前面的学习当中,我们可以得知在样本均值落在两个标准差区间内的概率约为95%,此时若提高样本量,则标准差变小,估计值所在的范围也就越小,自然就越精确。

小结

  • 在计算概率时,要理清样本均值、总体均值、抽样分布均值三者的关系。
    • 样本均值是从总体中抽样所得样本的均值,样本的标准差也只是对总体的一个估计值,不完全相等
    • 在样本量足够大的前提下,抽样分布均值趋近于总体均值
    • 同样的置信水平下,可以通过增加样本量来提高准确度
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值