数据挖掘--统计学模块 05 抽样分布

最新推荐文章于 2022-03-25 16:42:13 发布

夜跑

最新推荐文章于 2022-03-25 16:42:13 发布

阅读量2.1k

点赞数

分类专栏：数据分析\挖掘--统计学

本文链接：https://blog.csdn.net/YEPAO01/article/details/99679333

版权

本文介绍了抽样分布的概念，包括大数法则、中心极限定理、自助法，以及Z分布、T分布、卡方分布和F分布。通过中心极限定理理解样本平均数的分布，讲解了如何从抽样分布推断总体参数，并介绍了如何构建置信区间进行参数估计。

摘要由CSDN通过智能技术生成

文章目录

抽样分布
抽样分布:
从抽样分布到置信区间

抽样分布

统计量：样本均值、样本方差、样本变异系数、样本K阶矩、样本K阶中心矩、样本偏度、样本峰度、次序统计量、充分统计量
抽样分布：卡方分布、T分布、F分布、样本方差的分布(卡方分布)、样本比例的抽样分布、中心极限定理、两个样本平均值之差的分布、两样本方差之比的分布(F分布)、其他重要抽样分布

这周的作业建议先把推论统计抽样分布中心极限定理大数定理的定义先理解下

楔子

在理解抽样分布之前, 首先需要明确区分 描述统计与推论统计
描述统计: 用来描述收集的数据.例如集中趋势\离散程度\分布状态
推论统计: 在于使用我们收集到的数据对更大的总体数据得出结论.
另外需要明白: 什么是参数什么是统计量?

总体–>我们想要研究的整个群体.
参数–>描述总体的数值摘要
样本–>总体的子集
统计量–>描述样本的数值摘要
记住一句话: 抽样分布是样本的分布, 也可以理解为一个统计量的分布(任何统计量),这是关键.
记住，所有参数从属于一个总体，而所有统计量从属于一个样本。

以下是统计中的符号
在这里插入图片描述

大数法则

大数法则 表示随着样本容量增加，样本平均数越来越接近总体平均数，但是我们首先如何确定样本平均数可以估计总体平均数呢？我们以后如何识别参数与统计量的其他关系呢？
下面是三种最常见的估计技巧：

最大似然估计
矩估计方法
贝叶斯估计
可以利用代码举例: 随着样本量的增加, 样本平均数越来越接近于总体平均数.

1. 该人口数据集中的数据值的数量是多少？
2. 人口均值是多少？
3. 使用 numpy 的 random.choice 模拟从 pop_data 数组中进行 5 次取样。样本均值是多少？
4. 使用 numpy 的 random.choice 模拟从 pop_data 数组中进行 20 次取样。样本均值是多少？
5. 使用 numpy 的 random.choice 模拟从 pop_data 数组中进行 100 次取样。样本均值是多少？
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
np.random.seed(42)
pop_data = np.random.gamma(1,100,3000)
plt.hist(pop_data);

pop_data.shape()
pop_data.mean()
np.random.choice(pop_data,5).mean()
np.random.choice(pop_data,20).mean()
np.random.choice(pop_data,100).mean()

在这里插入图片描述

中心极限定理

中心极限定理 表示 样本容量足够大，平均数的抽样分布越接近正态分布。
中心极限定理实际上应用于这些常见的统计量中：
在这里插入图片描述
但是不能应用于所有的统计量, 例如方差.

举例说明:

import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline
np.random.seed(42)
pop_data = np

最低0.47元/天解锁文章

夜跑

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录