统计学基础专栏02—数据和抽样分布
0、术语
0.2、数据和抽样分布
样本
大型数据集的一个子集
总体
一个大型数据集,或是一个构想的数据集
N(或n)
一般用N表示总体的规模,n表示样本的规模
随机抽样
从总体中随机抽取元素到样本中
分层抽样
对总体分层,并在每层中做随机抽样
简单随机抽样
在不对总体分层的情况下,做随机抽样得到的样本
样本偏差
样本对总体做出了错误的解释
偏差
系统性误差
数据窥探
为得到感兴趣的结果,在数据中做大量的查找
大规模搜索效应
由于重复的数据建模,或使用大量的预测变量对数据建模所导致的偏差或非可重现性
样本统计量
对抽取自大规模总体中的样本做计算,所得到的一些度量值。如取5个数据的均值,或取20个数据的均值,共取1000次,样本大小为1000。5和20为样本规模。
数据分布
单个值在数据集中的频数分布
抽样分布
一个样本统计量在多个样本或重抽样中的频数分布
中心极限定理
当样本的规模增大时,抽样分布呈正态分布的趋势
标准误差
多个样本间样本统计量的变异性(标准偏差)。不要与标准偏差混淆,后者指个体数据值间的变异性
自助样本
从观测数据集中做有放回的抽取而得到的样本
重抽样
在观测数据中重复抽取样本的过程,其中包括自助过程和置换过程
置信区间
以百分比表示的置信区间。该区间是从同一总体中以同一方式构建的,可以包含我们感兴趣的统计量
区间端点
置信区间的两端
误差
数据点与预测值或均值间的差异
标准化
数据值减去均值,再除以标准偏差
z分数
单个数据点标准化的结果
标准正态分布
均值为0、标准偏差为1的正态分布
Q-Q图
对样本分布与正态分布间接近程度的可视化绘图
尾
一个频数分布的狭长部分,其中相对极值出现的频数很低
偏斜
分布的一个尾部长于另一个尾部
n
表示一个样本的规模
自由度
自由度是一个参数,允许根据不同的样本规模、统计量和组数对t分布进行调整
试验
一次输出离散值的事件,例如一次抛硬币
二项
具有两个输出
二项分布
在多次二项实验中,成功次数的分布
lambda
单位时间内或单位空间中的事件发生率
泊松分布
单位时间内或单位空间中事件数量的频数分布
指数分布
在时间或距离上,从一个事件到下一个事件的频数分布
韦伯分布
泛化版本的指数分布。韦伯分布允许事件发生的速率随时间变化
2、数据和抽样分布
2.1、随机抽样和样本偏差
随机抽样
- 简单随机
- 有放回
- 无放回
样本以某种非随机方式,不同于其想要代表的大规模总体,即存在样本偏差
2.1.1、偏差
统计偏差是一些系统性的测量误差或抽样误差。样本不能代表总体时出现。
2.1.2、随机选择
实现样本的代表性
可以使用分层抽样,对不同的层赋予不同的权重,以生成对等的抽样规模
2.1.3、数据规模和数据质量:何时规模更重要
如Google检索查询请求,只有积累了巨大规模的数据,Google才能为大部分查询提供有效的搜索结果
2.1.4、样本均值和总体均值
x ˉ \bar{x} xˉ样本均值
μ \mu μ总体均值
2.2、选择偏差
发现的结果是否的确具有意义?还是仅仅是离群值?
2.2.1、趋均值回归
指对同一变量做连续测量时出现的一种现象,即在极端观测值后,会出现更趋向于中心的观测值
2.3、统计量的抽样分布
从同一总体中抽取多个样本时,一些样本统计量的分布情况
样本统计量的分布要比数据本身的分布更加规则,分布更趋向于正态分布。
样本的规模越大,样本统计量的分布就越窄。
2.3.1、中心极限定理
即使原始总体不符合正态分布,但只要样本的规模足够大,并且数据并非在很大程度上偏离正常值,那么从多个样本得到的均值将会呈现出正态分布。
即便底层的总体数据并不符合正态分布,但样本统计量通常符合正态分布。
2.3.2、标准误差
总结了单个统计量抽样分布的变异性
标准误差 = s n =\frac{s}{\sqrt{n}} =ns,s为标准偏差,n为样本规模
2.4、自助法
从样本本身中有放回地抽取更多的样本,并对每次重抽样重新计算统计量或模型
对规模为n的样本做均值重抽样的算法实现如下:
- 抽取一个样本值,记录后放回总体
- 重复n次
- 记录n各重抽样的均值
- 重复上述步骤多次,例如r次
- 使用r个结果
- 计算他们的标准偏差,用来估计抽样均值的标准误差
- 生成直方图或箱线图
- 找出置信区间
r为自助法的迭代次数,次数越多,对标准误差或置信区间的估计就越准确
2.4.1、重抽样和自助法
重抽样约等于自助法
2.5、置信区间
置信区间是一种以区间范围表示估计量的常用方法。通常以覆盖程度的形式给出,表示为(高)百分比
算法:
- 从数据中有放回地抽取规模为n的随机样本(重抽样)
- 记录重抽样中感兴趣的统计量
- 多次重复r次
- 对于x%置信区间,从分布两端对r个重抽样结果切尾[1-(x/100)/2]%
- 切尾点就是x%自助法置信区间的区间端点
百分比为置信水平。置信水平越高,置信区间越宽。样本规模越小,置信区间也会越宽。
置信区间是一种了解样本结果可能的变化情况的工具。
2.6、正态分布(高斯分布)
正态分布源于很多统计量在抽样分布中是正态分布的。但只有在经验概率分布或自助法分布不可用时,才会使用正态性假设作为最后一招。
Q-Q图
可视化地确定样本与正态分布间的近似度。y值为每个值的z分数,x轴的单位是该值秩的正态分布所对应的分位数。如数据点大体落在对角线上,则可近似认为样本分布符合正态分布。
2.7、长尾分布
有时数据分布是高度偏斜(不对称)的。
数据分布的尾部,对应于数据中的极值,包括极大值和极小值。
Q-Q图
2.8、学生t分布
t分布呈正态分布形状,但钟形稍厚,尾部略长。
样本均值的分布通常呈t分布形状。
样本的规模越大,t分布就趋向于正态分布形状。
t分布实际上是一个分布家族。其广泛使用基于中心极限定理。
2.9、二项分布
成功概率p 实验次数n 成功数x
二项分布的均值n*p
方差 n*p(1-p)
实验次数足够多时(n很大)(尤其当p接近于0.5时),二项分布几乎等于正态分布
2.10、泊松分布及其相关分布
2.10.1、泊松分布
λ \lambda λ 指定时间或空间间隔中,事件发生数量的均值。也是泊松分布的方差
泊松分布根据单位时间或单位空间中的平均事件数量,得到事件的分布情况
2.10.2、指数分布
建模各次事件之间的时间分布情况。
rate 每个 时间周期内的事件数量
2.10.3、故障率估计
如飞机引擎的故障十分罕见,即没有数据可用于估计发生故障的时间间隔。
通过拟合或直接计算概率,评估不同的假设事件发生率,并估计一个阈值(发生率不可能比它低)
2.10.4、韦伯分布
指数分布的延申。通过形状参数 β \beta β表示允许事件的发生率产生变化
η \eta η特征生命,也称为比例参数,引申韦伯分布的故障发生时间到事件发生率
如果事件发生率为常数,那么可以用泊松分布对单位时间或空间内的事件数量进行建模。在这种场景下,可以用指数分布对两个事件间的时间间隔或距离建模。如果事件发生率会随时间变化(例如,设备故障率的增大),可以使用韦伯分布建模。