数据分析【统计管理】二-CSDN博客

本文链接：https://blog.csdn.net/qq_44838729/article/details/138096400

抽样的Python代码实现：

import random
import matplotlib.pyplot as plt
import numpy as np

def sample(num_of_samples, sample_sz):
    data = [] # 用来收集每个样本的均值
    for _ in range(num_of_samples):
        # 从均匀分布的总体中模拟抽样
        data.append(np.mean([random.uniform(0.0,1.0) for _ in range(sample_sz)]))
    return data # 返回收集了每个样本的均值的列表

if __name__ == "__main__":
    data = sample(10000,100)
    plt.hist(data,bins='auto',rwidth=0.8) # 绘制直方图
    plt.axvline(x=np.mean(data),c='red') # 绘制所有样本均值的均值对应的直线
    plt.show()

在这里插入图片描述
以上代码从侧面验证了统计学的一个重要定理，中心极限定理，中心极限定理支出，如果样本足够大，则变量均值的抽样分布将近似于正态分布，而与该变量在总体中的分布无关。

一、点估计

什么是点估计？
设总体X的分布形式已知，但它的一个或多个参数未知，借助于总体X的一个样本来估计总体未知参数的值的问题称为参数的点估计问题。
在这里插入图片描述
注意：点估计的问题就是要构造一个适当的统计量（估计量），用它的观察值作为未知参数的近似值（估计值）。

估计量的评选标准：
无偏性：
– 若估计量的数学期望存在，并且该期望等于总体参数，则称为无偏估计
–无偏估计的实际意义就是：“E(估计值） - 真值”的结果为0
–不论总体服从什么分布，样本均值是总体均值的无偏估计，样本方差是总体方差的无偏估计。
在这里插入图片描述
有效性：

相合性：
随着样本容量的增大，一个估计量的值稳定于待估参数的真值，满足此条件的估计量为相合估计量。
在这里插入图片描述

二、区间估计

区间估计用来估计总体未知参数的区间范围。
在这里插入图片描述
对于位置参数，我们不仅要得到近似值（点估计），还希望估计出一个范围（区间），并希望知道这个范围包含参数真值的可信程度，这种形式的估计称为区间估计，这样的区间称为置信区间。

注意：
对于置信区间和置信水平的理解：
1、固定样本容量n,若反复抽样多次，每个样本值确定一个区间，每个这样的区间要么包含θ的真值，要么不包含θ的真值；
2、在这么多区间中，包含真值的约占100(1-α)%，不包含真值的占100α%；
3、计算得到的区间属于那些包含真值的区间的可信程度为100(1-α)%，或“该区间包含真值”这一程序的可信程度为100(1-α)%。