大数定律、中心极限定理、高斯分布、点估计、区间估计

首先,以统计全国平均身高引入大数定律和中心极限定理:

我们要调查全国人口(假设有P人( X 1 , X 2 , . . . , X P X_1,X_2,...,X_P X1,X2,...,XP),且服从均匀分布,均值 μ \mu μ,方差 δ 2 \delta^2 δ2)的平均身高:

  • 大数定律
    现在抽样调查了n个人,大数定律的思想告诉我们:当样本量n足够大时,样本均值可以近似总体均值(( Σ i = 1 n X i n = μ , n → ∞ \frac{\Sigma_{i=1}^nX_i}{n} = \mu, n \to \infty nΣi=1nXi=μ,n,这样我们会得到全国人口的平均身高。

  • 中心极限定理
    中心极限的思想重复抽样N次,每次取样n人并计算样本均值,当n足够大时,样本均值(看作一个新的随机变量)( Σ i = 1 n X i n \frac{\Sigma_{i=1}^nX_i}{n} nΣi=1nXi)服从正态分布( N ( μ , δ 2 / n ) N(\mu,\delta^2/n) N(μ,δ2/n))。

  • 高斯分布:透彻理解高斯分布

  • 点估计
    给出平均身高的估计值,但不能给出估计值偏离真实值的程度。

  • 区间估计:95%的置信水平认为全国人口身高落在[164,165.5]

    • 置信区间:随机抽样n个人,计算样本均值和标准误差(标准差/ ( n ) \sqrt(n) ( n)),确定需要的置信水平,根据这三者可以确定该置信水平下的置信空间。
    • 置信水平:落在置信区间的可信度
      直观理解我们最常用的95%置信水平,就是说做100次抽样,每次抽样n个人,计算置信区间,有95次的置信区间包含了总体均值。
# 验证大数定律
import numpy as np
import matplotlib.pyplot as plt

#假设总体身高服从均匀分布,N=10000,均值(150+180)/2
data = np.random.randint(150,180,10000) 
means = []
for i in range(1,10000):
    means.append(np.mean(data[:i]))
plt.plot(means)
plt.plot([0,10000],[165,165])
plt.show()

在这里插入图片描述

# 验证中心极限
import numpy as np
import matplotlib.pyplot as plt

#假设总体身高服从均匀分布,N=10000,均值(150+180)/2
data = np.random.randint(150,180,10000) 
#进行6000次取样
means = []
for i in range(6000):
    tmp = np.random.choice(data,size = 1000)
    means.append(tmp.mean())
#绘制均值们的直方图
plt.grid()
plt.hist(means,30)
plt.show()

在这里插入图片描述

结合上面两个图,重复实验6000次,大概有95%的样本均值都会落在[164,165.5]的区间内。其实,区间估计就是根据中心极限定理得到的。

在这里插入图片描述

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

hellobigorange

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值