4.抽样分布的概念与Python实现抽样

想成为数据分析师的开发工程师

于 2023-02-20 15:03:10 发布

阅读量609

点赞数 1

分类专栏：数据分析-统计分析文章标签： python 概率论机器学习数据分析算法

本文链接：https://blog.csdn.net/m0_63953077/article/details/129123578

版权

数据分析-统计分析专栏收录该内容

16 篇文章 11 订阅

订阅专栏

1.总体与样本

在这里插入图片描述

在实际中，总体的分布一般是未知的，或只知道它具有某种形式而其中包含着未知参数。这时，常用的办法就是根据样本来推断总体。
总体、个体、样本

总体：通常把研究对象的全体称为总体，一个总体对应于一个随机变量X
个体：把组成总体的每个成员称为个体
样本：在相同的条件下对总体X进行n次重复的、独立的观察，将n次观察结果按试验的次序记为X1，X2，…Xn, 那么，称n维随机变量(X1，X2，…Xn)为样本，n为样本容量
注意：
样本(X1，X2，…Xn)具有下列两个特性：

代表性每一个Xi 应该与总体X 有相同的分布，i=1,…,n;
独立性 X1，X2，…Xn应该是相互独立的随机变量

2.统计量、抽样分布的概念

在这里插入图片描述

我们往往不是直接使用样本本身，而是针对不同的问题构造样本的适当函数，利用这些样本的函数（统计量）进行统计推断
统计量的概念
(X1，X2，…Xn)是来自总体X 的一个样本，g(X1，X2，…Xn)是(X1，X2，…Xn)的函数，若g中不含未知参数，则称g(X1，X2，…Xn)是一个统计量
在这里插入图片描述

常用的统计量
在这里插入图片描述
抽样分布
由于统计量是样本的函数，从而一个统计量也是一个随机变量。把统计量的分布就叫做抽样分布。

注意：
通过对统计量的分布（抽样分布）进行分析，可以得到关于总体的未知信息。常用统计量的分布在下一小节会讲到

3.三个常用的抽样分布

在这里插入图片描述
卡方分布

在这里插入图片描述
t分布

F分布

4.正态总体的样本均值与样本方差的分布

在这里插入图片描述

5.Python实现抽样(中心极限定理)

注意
代码从侧面验证了统计学中的一个重要定理：中心极限定理
中心极限定理支出，如果样本足够大，则变量均值的抽样分布将近似于正态分布，而与该变量在总体中的分布无关

import random
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
# 解决绘图的兼容问题
%matplotlib inline
matplotlib.rcParams['font.sans-serif'] = ['SimHei']

# num_of_samples:样本个数   sample_sz：每个样本的样本容量
def sample(num_of_samples, sample_sz):
    data = [] # 用来存储每一个样本均值的列表
    # 模拟从均匀分布中抽取
    for _ in range(num_of_samples):
        data.append(np.mean([random.uniform(0.0, 1.0) for _ in range(sample_sz)]))
    return data

data = sample(10000,100)
plt.hist(data, bins='auto', rwidth=0.8) # 绘制直方图
plt.axvline(x=np.mean(data), c='red') # 绘制所有样本均值的均值对应直线
plt.show()