1.总体与样本
在实际中,总体的分布一般是未知的,或只知道它具有某种形式而其中包含着未知参数。这时,常用的办法就是根据样本来推断总体。
总体、个体、样本
- 总体:通常把研究对象的全体称为总体,一个总体对应于一个随机变量X
- 个体:把组成总体的每个成员称为个体
- 样本:在相同的条件下对总体X进行n次重复的、独立的观察,将n次观察结果按试验的次序记为X1,X2,…Xn, 那么,称n维随 机变量(X1,X2,…Xn)为样本,n为样本容量
注意:
样本(X1,X2,…Xn)具有下列两个特性:
- 代表性 每一个Xi 应该与总体X 有相同的分布,i=1,…,n;
- 独立性 X1,X2,…Xn应该是相互独立的随机变量
2.统计量、抽样分布的概念
我们往往不是直接使用样本本身,而是针对不同的问题构造样本的适当函数,利用这些样本的函数(统计量)进行统计推断
统计量的概念
(X1,X2,…Xn)是来自总体X 的一个样本,g(X1,X2,…Xn)是(X1,X2,…Xn)的函数,若g中不含未知参数,则称g(X1,X2,…Xn)是一个统计量
常用的统计量
抽样分布
由于统计量是样本的函数,从而一个统计量也是一个随机变量。把统计量的分布就叫做抽样分布。
注意:
通过对统计量的分布(抽样分布)进行分析,可以得到关于总体的未知信息。 常用统计量的分布在下一小节会讲到
3.三个常用的抽样分布
卡方分布
t分布
F分布
4.正态总体的样本均值与样本方差的分布
5.Python实现抽样(中心极限定理)
注意
代码从侧面验证了统计学中的一个重要定理:中心极限定理
中心极限定理支出,如果样本足够大,则变量均值的抽样分布将近似于正态分布,而与该变量在总体中的分布无关
import random
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
# 解决绘图的兼容问题
%matplotlib inline
matplotlib.rcParams['font.sans-serif'] = ['SimHei']
# num_of_samples:样本个数 sample_sz:每个样本的样本容量
def sample(num_of_samples, sample_sz):
data = [] # 用来存储每一个样本均值的列表
# 模拟从均匀分布中抽取
for _ in range(num_of_samples):
data.append(np.mean([random.uniform(0.0, 1.0) for _ in range(sample_sz)]))
return data
data = sample(10000,100)
plt.hist(data, bins='auto', rwidth=0.8) # 绘制直方图
plt.axvline(x=np.mean(data), c='red') # 绘制所有样本均值的均值对应直线
plt.show()