数据挖掘--统计学模块 05 抽样分布

本文介绍了抽样分布的概念,包括大数法则、中心极限定理、自助法,以及Z分布、T分布、卡方分布和F分布。通过中心极限定理理解样本平均数的分布,讲解了如何从抽样分布推断总体参数,并介绍了如何构建置信区间进行参数估计。
摘要由CSDN通过智能技术生成

抽样分布

  • 统计量:样本均值、样本方差、样本变异系数、样本K阶矩、样本K阶中心矩、样本偏度、样本峰度、次序统计量、充分统计量
  • 抽样分布:卡方分布、T分布、F分布、样本方差的分布(卡方分布)、样本比例的抽样分布、中心极限定理、两个样本平均值之差的分布、两样本方差之比的分布(F分布)、其他重要抽样分布

这周的作业建议 先把推论统计 抽样分布 中心极限定理 大数定理的定义先理解下

楔子

在理解抽样分布之前, 首先需要明确区分 描述统计 与 推论统计
描述统计: 用来描述收集的数据.例如集中趋势\离散程度\分布状态
推论统计: 在于使用我们收集到的数据对更大的总体数据得出结论.
另外需要明白: 什么是参数 什么是统计量?

  • 总体–>我们想要研究的整个群体.
  • 参数–>描述总体的数值摘要
  • 样本–>总体的子集
  • 统计量–>描述样本的数值摘要
    记住一句话: 抽样分布是样本的分布, 也可以理解为一个统计量的分布(任何统计量),这是关键.
    记住,所有 参数 从属于一个总体,而所有 统计量 从属于一个样本。

以下是统计中的符号
在这里插入图片描述

大数法则

大数法则 表示 随着样本容量增加,样本平均数越来越接近总体平均数,但是我们首先如何确定样本平均数可以估计总体平均数呢?我们以后如何识别参数与统计量的其他关系呢?
下面是三种最常见的估计技巧:

  • 最大似然估计
  • 矩估计方法
  • 贝叶斯估计
    可以利用代码举例: 随着样本量的增加, 样本平均数越来越接近于总体平均数.
1. 该人口数据集中的数据值的数量是多少?
2. 人口均值是多少?
3. 使用 numpy 的 random.choice 模拟从 pop_data 数组中进行 5 次取样。样本均值是多少?
4. 使用 numpy 的 random.choice 模拟从 pop_data 数组中进行 20 次取样。样本均值是多少?
5. 使用 numpy 的 random.choice 模拟从 pop_data 数组中进行 100 次取样。样本均值是多少?
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
np.random.seed(42)
pop_data = np.random.gamma(1,100,3000)
plt.hist(pop_data);

pop_data.shape()
pop_data.mean()
np.random.choice(pop_data,5).mean()
np.random.choice(pop_data,20).mean()
np.random.choice(pop_data,100).mean()

在这里插入图片描述

中心极限定理

中心极限定理 表示 样本容量足够大,平均数的抽样分布越接近正态分布
中心极限定理 实际上应用于这些常见的统计量中:
在这里插入图片描述
但是不能应用于所有的统计量, 例如方差.

举例说明:

import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline
np.random.seed(42)
pop_data = np
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值