统计学基础专栏02---数据和抽样分布

统计学基础专栏02—数据和抽样分布

0、术语

0.2、数据和抽样分布

样本

大型数据集的一个子集

总体

一个大型数据集,或是一个构想的数据集

N(或n)

一般用N表示总体的规模,n表示样本的规模

随机抽样

从总体中随机抽取元素到样本中

分层抽样

对总体分层,并在每层中做随机抽样

简单随机抽样

在不对总体分层的情况下,做随机抽样得到的样本

样本偏差

样本对总体做出了错误的解释

偏差

系统性误差

数据窥探

为得到感兴趣的结果,在数据中做大量的查找

大规模搜索效应

由于重复的数据建模,或使用大量的预测变量对数据建模所导致的偏差或非可重现性

样本统计量

对抽取自大规模总体中的样本做计算,所得到的一些度量值。如取5个数据的均值,或取20个数据的均值,共取1000次,样本大小为1000。5和20为样本规模

数据分布

单个值在数据集中的频数分布

抽样分布

一个样本统计量在多个样本或重抽样中的频数分布

中心极限定理

当样本的规模增大时,抽样分布呈正态分布的趋势

标准误差

多个样本间样本统计量的变异性(标准偏差)。不要与标准偏差混淆,后者指个体数据值间的变异性

自助样本

从观测数据集中做有放回的抽取而得到的样本

重抽样

在观测数据中重复抽取样本的过程,其中包括自助过程和置换过程

置信区间

以百分比表示的置信区间。该区间是从同一总体中以同一方式构建的,可以包含我们感兴趣的统计量

区间端点

置信区间的两端

误差

数据点与预测值或均值间的差异

标准化

数据值减去均值,再除以标准偏差

z分数

单个数据点标准化的结果

标准正态分布

均值为0、标准偏差为1的正态分布

Q-Q图

对样本分布与正态分布间接近程度的可视化绘图

一个频数分布的狭长部分,其中相对极值出现的频数很低

偏斜

分布的一个尾部长于另一个尾部

n

表示一个样本的规模

自由度

自由度是一个参数,允许根据不同的样本规模、统计量和组数对t分布进行调整

试验

一次输出离散值的事件,例如一次抛硬币

二项

具有两个输出

二项分布

在多次二项实验中,成功次数的分布

lambda

单位时间内或单位空间中的事件发生率

泊松分布

单位时间内或单位空间中事件数量的频数分布

指数分布

在时间或距离上,从一个事件到下一个事件的频数分布

韦伯分布

泛化版本的指数分布。韦伯分布允许事件发生的速率随时间变化

2、数据和抽样分布

2.1、随机抽样和样本偏差

随机抽样

  • 简单随机
    • 有放回
    • 无放回

样本以某种非随机方式,不同于其想要代表的大规模总体,即存在样本偏差

2.1.1、偏差

统计偏差是一些系统性的测量误差或抽样误差。样本不能代表总体时出现。

2.1.2、随机选择

实现样本的代表性

可以使用分层抽样,对不同的层赋予不同的权重,以生成对等的抽样规模

2.1.3、数据规模和数据质量:何时规模更重要

如Google检索查询请求,只有积累了巨大规模的数据,Google才能为大部分查询提供有效的搜索结果

2.1.4、样本均值和总体均值

x ˉ \bar{x} xˉ样本均值

μ \mu μ总体均值

2.2、选择偏差

发现的结果是否的确具有意义?还是仅仅是离群值?

2.2.1、趋均值回归

指对同一变量做连续测量时出现的一种现象,即在极端观测值后,会出现更趋向于中心的观测值

2.3、统计量的抽样分布

从同一总体中抽取多个样本时,一些样本统计量的分布情况

样本统计量的分布要比数据本身的分布更加规则,分布更趋向于正态分布。

样本的规模越大,样本统计量的分布就越窄。

2.3.1、中心极限定理

即使原始总体不符合正态分布,但只要样本的规模足够大,并且数据并非在很大程度上偏离正常值,那么从多个样本得到的均值将会呈现出正态分布。

即便底层的总体数据并不符合正态分布,但样本统计量通常符合正态分布。

2.3.2、标准误差

总结了单个统计量抽样分布的变异性

标准误差 = s n =\frac{s}{\sqrt{n}} =n s,s为标准偏差,n为样本规模

2.4、自助法

从样本本身中有放回地抽取更多的样本,并对每次重抽样重新计算统计量或模型

对规模为n的样本做均值重抽样的算法实现如下:

  • 抽取一个样本值,记录后放回总体
  • 重复n次
  • 记录n各重抽样的均值
  • 重复上述步骤多次,例如r次
  • 使用r个结果
    • 计算他们的标准偏差,用来估计抽样均值的标准误差
    • 生成直方图或箱线图
    • 找出置信区间

r为自助法的迭代次数,次数越多,对标准误差或置信区间的估计就越准确

2.4.1、重抽样和自助法

重抽样约等于自助法

2.5、置信区间

置信区间是一种以区间范围表示估计量的常用方法。通常以覆盖程度的形式给出,表示为(高)百分比

算法:

  • 从数据中有放回地抽取规模为n的随机样本(重抽样)
  • 记录重抽样中感兴趣的统计量
  • 多次重复r次
  • 对于x%置信区间,从分布两端对r个重抽样结果切尾[1-(x/100)/2]%
  • 切尾点就是x%自助法置信区间的区间端点

在这里插入图片描述

百分比为置信水平。置信水平越高,置信区间越宽。样本规模越小,置信区间也会越宽。

置信区间是一种了解样本结果可能的变化情况的工具。

2.6、正态分布(高斯分布)

正态分布源于很多统计量在抽样分布中是正态分布的。但只有在经验概率分布或自助法分布不可用时,才会使用正态性假设作为最后一招。

在这里插入图片描述

Q-Q图

可视化地确定样本与正态分布间的近似度。y值为每个值的z分数,x轴的单位是该值秩的正态分布所对应的分位数。如数据点大体落在对角线上,则可近似认为样本分布符合正态分布。

在这里插入图片描述

2.7、长尾分布

有时数据分布是高度偏斜(不对称)的。

数据分布的尾部,对应于数据中的极值,包括极大值和极小值。

Q-Q图

在这里插入图片描述

2.8、学生t分布

t分布呈正态分布形状,但钟形稍厚,尾部略长。

样本均值的分布通常呈t分布形状。

样本的规模越大,t分布就趋向于正态分布形状。

t分布实际上是一个分布家族。其广泛使用基于中心极限定理

2.9、二项分布

成功概率p 实验次数n 成功数x

二项分布的均值n*p

方差 n*p(1-p)

实验次数足够多时(n很大)(尤其当p接近于0.5时),二项分布几乎等于正态分布

2.10、泊松分布及其相关分布

2.10.1、泊松分布

λ \lambda λ 指定时间或空间间隔中,事件发生数量的均值。也是泊松分布的方差

泊松分布根据单位时间或单位空间中的平均事件数量,得到事件的分布情况

2.10.2、指数分布

建模各次事件之间的时间分布情况。

rate 每个 时间周期内的事件数量

2.10.3、故障率估计

如飞机引擎的故障十分罕见,即没有数据可用于估计发生故障的时间间隔。

通过拟合或直接计算概率,评估不同的假设事件发生率,并估计一个阈值(发生率不可能比它低)

2.10.4、韦伯分布

指数分布的延申。通过形状参数 β \beta β表示允许事件的发生率产生变化

η \eta η特征生命,也称为比例参数,引申韦伯分布的故障发生时间到事件发生率

如果事件发生率为常数,那么可以用泊松分布对单位时间或空间内的事件数量进行建模。在这种场景下,可以用指数分布对两个事件间的时间间隔或距离建模。如果事件发生率会随时间变化(例如,设备故障率的增大),可以使用韦伯分布建模。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

lucas_ch

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值