抽样分布
- 统计量:样本均值、样本方差、样本变异系数、样本K阶矩、样本K阶中心矩、样本偏度、样本峰度、次序统计量、充分统计量
- 抽样分布:卡方分布、T分布、F分布、样本方差的分布(卡方分布)、样本比例的抽样分布、中心极限定理、两个样本平均值之差的分布、两样本方差之比的分布(F分布)、其他重要抽样分布
这周的作业建议 先把推论统计 抽样分布 中心极限定理 大数定理的定义先理解下
楔子
在理解抽样分布之前, 首先需要明确区分 描述统计 与 推论统计
描述统计: 用来描述收集的数据.例如集中趋势\离散程度\分布状态
推论统计: 在于使用我们收集到的数据对更大的总体数据得出结论.
另外需要明白: 什么是参数 什么是统计量?
- 总体–>我们想要研究的整个群体.
- 参数–>描述总体的数值摘要
- 样本–>总体的子集
- 统计量–>描述样本的数值摘要
记住一句话: 抽样分布是样本的分布, 也可以理解为一个统计量的分布(任何统计量),这是关键.
记住,所有 参数 从属于一个总体,而所有 统计量 从属于一个样本。
以下是统计中的符号
大数法则
大数法则 表示 随着样本容量增加,样本平均数越来越接近总体平均数,但是我们首先如何确定样本平均数可以估计总体平均数呢?我们以后如何识别参数与统计量的其他关系呢?
下面是三种最常见的估计技巧:
- 最大似然估计
- 矩估计方法
- 贝叶斯估计
可以利用代码举例: 随着样本量的增加, 样本平均数越来越接近于总体平均数.
1. 该人口数据集中的数据值的数量是多少?
2. 人口均值是多少?
3. 使用 numpy 的 random.choice 模拟从 pop_data 数组中进行 5 次取样。样本均值是多少?
4. 使用 numpy 的 random.choice 模拟从 pop_data 数组中进行 20 次取样。样本均值是多少?
5. 使用 numpy 的 random.choice 模拟从 pop_data 数组中进行 100 次取样。样本均值是多少?
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
np.random.seed(42)
pop_data = np.random.gamma(1,100,3000)
plt.hist(pop_data);
pop_data.shape()
pop_data.mean()
np.random.choice(pop_data,5).mean()
np.random.choice(pop_data,20).mean()
np.random.choice(pop_data,100).mean()
中心极限定理
中心极限定理 表示 样本容量足够大,平均数的抽样分布越接近正态分布。
中心极限定理 实际上应用于这些常见的统计量中:
但是不能应用于所有的统计量, 例如方差.
举例说明:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
np.random.seed(42)
pop_data = np