统计学基础知识

1. 探索性数据分析 EDA

1.探索性数据分析EDA
1.1结构化数据
数值型数据
连续型数据
离散型数据
分类型数据
二元数据
0/1,True/False
有序数据
1,2,3,4,5
1.2矩形数据
1.2.1数据框
表格
1.2.2非矩形数据
时序数据
记录连续测试值
空间数据结构
用于地图和定位分析,关注的是对象及其空间坐标
图形/网络数据
物理/社交网络上抽象关系
1.3位置估计
1.3.1均值
切尾均值
消除极值对均值影响
加权均值
每个特征赋予一个权重
1.3.2中位数和稳健估计量
中位数
更好的位置度量
加权中位数
一半权重之和位于该值之上和之下
离群值
异常检测关注的是离群值
1.4变异性估计
1.4.1标准偏差及其相关估计量
平均绝对偏差
方差
中位数绝对偏差
1.4.2基于百分位数的估计量
四分位距
1.5 探索数据分布
1.5.1百分位数和箱线图
1.5.2频数表和直方图
偏度-分布的三阶矩
数据偏向小还是大的值
峰度-四阶矩
数据中具有极值的倾向性
1.5.3密度估计
密度图与直方图有关,是一种核密度估计量
1.6 探索二元数据和分类数据
1.6.1众数
1.6.2期望值
1.7 相关性
相关系数-相关矩阵
1.7.1散点图
1.8 探索两个及以上变量
1.8.1六边形图和等势线
适用于两个数值型变量
1.8.2两个分类变量
列联表
1.8.3分类数据和数值型数据
小提琴图-箱线图增强

1.1 结构化数据的组成

连续型数据
  数据可在一个区间内取任何值。
同义词:区间数据、浮点型数据、数值数据

离散型数据
  数据只能取整数,例如计数。
同义词:整数型数据、计数型数据

分类型数据
  数据只能从特定集合中取值,表示一系列可能的分类。
同义词:枚举数据、列举数据、因子数据、标称数据、多分支数据

二元数据
  一种特殊的分类数据,数据值只能从两个值中取其一(例如0或1,True或 False)
同义词:二分数据、逻辑型数据、指示器数据、布尔型数据

有序数据
  具有明确排序的分类数据。
同义词:有序因子数据

1.2 矩形数据

数据框
  电子表格等矩形数据是统计和机器学习模型中的基本数据结构。

数据特征
  通常称数据表中的一列为一个特征。
同义词:属性、输入、预测因子、变量

结果
  不少数据科学项目涉及对 结果 的预测,常见的结果为“是”或“否”(如表中的“拍卖是否竞价?”)。特征 有时在实验或研究中用于预测 结果
同义词:因变量、响应、目标、输出

记录
  通常称数据表中的一行为一条记录。
同义词:事例、例子、实例、观察、模式、样本

1.3 位置估计

  均值是一种基本的位置度量,但是对极值(离群值)敏感;其他一些度量更为稳健,例如中位数和切尾均值。

均值
  所有数据值之和除以数值的个数。
同义词:平均值
 均值  = x ˉ = ∑ i n x i n \text { 均值 }=\bar{x}=\frac{\sum_{i}^{n} x_{i}}{n}  均值 =xˉ=ninxi

加权均值
  各数值乘以相应的权重值,然后加总求和,再除以权重的总和。
同义词:加权平均值
 加权均值  = x ˉ w = ∑ i = 1 n w i x i ∑ i n w i \text { 加权均值 }=\bar{x}_{w}=\frac{\sum_{i=1}^{n} w_{i} x_{i}}{\sum_{i}^{n} w_{i}}  加权均值 =xˉw=inwii=1nwixi

  使用加权均值,主要是出于以下两个方面的考虑。
  一些值本质上要比其他的值更为多变,因此需要对多变的观测值赋子较低的权重。例如如果我们需要对来自多个传感器的数据计算均值,但是其中一个传感器的数据不是很准确,那么我们可对该传感器的数据赋予较低的权重。

  所采集的数据可能并未准确地表示我们想要测量的不同群组。例如,受限于在线实验的开展方式,我们得到的数据集可能并未准确地反映出不同用户群组的情况。为了修正这一问题,我们可对未准确表示的群组赋予较高的权重。

中位数
  使得数据集中分别有一半数据位于该值之上和之下。
同义词:第50百分位数

加权中位数
  使得排序数据集中分别有一半的权重之和位于该值之上和之下。

切尾均值
  在数据集剔除一定数量的极值后,再求均值。
同义词:截尾均值
 切尾均值  = x ˉ = ∑ i = p + 1 n − p x ( i ) n − 2 p \text { 切尾均值 }=\bar{x}=\frac{\sum_{i=p+1}^{n-p} x_{(i)}}{n-2 p}  切尾均值 =xˉ=n2pi=p+1npx(i)

  使用 x ( 1 ) , x ( 2 ) , . . . , x ( n ) x_{(1)},x_{(2)}, ... ,x_{(n)} x(1),x(2),...,x(n) 表示一个有序数据集,其中 x ( 1 ) x_{(1)} x(1)是最小值, x ( n ) x_{(n)} x(n)是最大值,去除 p p p个最大值和 p p p个最小值。

稳健
  对极值不敏感。
同义词:耐抗性

离群值
  与大部分数据值差异很大的数据值。
同义词:极值

1.4 变异性估计

  方差和标准偏差是日常最广泛使用的变异性统计量,都对离群值敏感;更稳健的度量包括偏离均值(百分位数、四分位距)的平均(中位数)绝对偏差。

偏差
  位置的观测值与估计值间的直接差异。
同义词:误差、残差

方差
  对于n个数据值,方差是对距离均值的偏差平方后求和,再除以 n一1。
同义词:均方误差
 方差  = s 2 = ∑ ( x − x ˉ ) 2 n − 1 \text { 方差 }=s^{2}=\frac{\sum(x-\bar{x})^{2}}{n-1}  方差 =s2=n1(xxˉ)2

标准偏差
  方差的平方根。
同义词:L2范数、欧几里得范数
 标准偏差  = s = ∑ ( x − x ˉ ) 2 n − 1 \text { 标准偏差 }=s=\sqrt{\frac{\sum(x-\bar{x})^{2}}{n-1}}  标准偏差 =s=n1(xxˉ)2

平均绝对偏差
  对数据值与均值间偏差的绝对值计算均值。
同义词:L1范数、曼哈顿范数
 平均绝对偏差  = ∑ i = 1 n ∣ x i − x ˉ ∣ n \text { 平均绝对偏差 }=\frac{\sum_{i=1}^{n}\left|x_{i}-\bar{x}\right|}{n}  平均绝对偏差 =ni=1nxixˉ

中位数绝对偏差
  数据值与中位数间绝对偏差的均值。
M A D =  中位数  ( ∣ x 1 − m ∣ , ∣ x 2 − m ∣ , ⋯   , ∣ x n − m ∣ ) \mathrm{MAD}=\text { 中位数 }\left(\left|x_{1}-m\right|,\left|x_{2}-m\right|, \cdots,\left|x_{n}-m\right|\right) MAD= 中位数 (x1m,x2m,,xnm)

  中位数绝对偏差(MAD)是一种稳健的变异性估计量,不受极值的影响。上面公式中 m m m 是中位数。

极差
  数据集中最大值和最小值间的差值。

顺序统计量
  基于从大到小排序的数据值的度量。
同义词:秩

百分位数
  表示一个数据集中, P % P% P 的值小于或等于第 P P P 百分位数, ( 100 − P ) % (100-P)% (100P)的值大于最等于第P百分位数。
同义词:四分位数

四分位距
  第75百分位数和第25百分位数间的差值。
同义词:四分位差

  • 四分位距的准确定义
    • 如果一个数据集中的数值个数是偶数(即 n 是偶数),那么根据上面的定义,百分位数不是唯一的。事实上,我们可以取任意一个位于顺序统计量 x ( j ) x_{(j)} x(j) x ( j + 1 ) x_{(j+1)} x(j+1) 间的值,只要 j j j 满足:
      100 × j n ≤ P < 100 × j + 1 n 100 \times \frac{j}{n} \leq P<100\times \frac{j+1}{n} 100×njP<100×nj+1
      正式的表述是,百分位数是一种加权平均:
      百分位数 (P) = ( 1 − w ) x ( j ) + w x ( j + 1 ) \text{百分位数 (P)}=(1-w)x_{(j)}+wx_{(j+1)} 百分位数 (P)(1w)x(j)wx(j+1)
      其中,权重值 w w w 介于 0 和 1 之间。不同的统计软件选取 w w w 的方法略有不同。

1.5 探索数据分布

  频数直方图在 y 轴上绘制数计数,在 x 轴上绘制变量值。它提供了对数据分布的概览。

箱线图
  图基提出的一种绘图,是一种快速可视化数据分布情况的方法。
同义词:箱形图、箱须图

在箱线图中,箱子的顶部和底部分别表示第75百分位数和第25百分位数。箱线图也提供了数据分布的基本情况。多个箱线图通常是并排展示的,以便于比较分布情况。

频数表
  将数值型数据的计数情况置于一组间隔(组距)中。

频数表百分位数 都是通过创建组距总结数据。一般情况下,四分位数和十分位数在每个组距中具有相同的计数,但是每个组距的大小不同,我们称之为 等计数组距。与之相对,如果频数表在每个组距中的计数不同,我们称之为 等规模组距

直方图
  对频数表的绘图,其中x轴是组距,y轴是计数(或比例)。

  • 统计学中的 (moment)
    • 在统计学理论中,位置和变异性分别称为分布的一阶矩二阶矩,而分布的三阶矩和四阶矩分别被称为 偏度峰度偏度显示了数据是偏向较小的值还是偏向较大的值,峰度 则显示了数据中具有极值的倾向性。

密度图
  直方图的平滑表示,通常基于某种 核密度估计

  密度图是直方图的一种平滑表示。它需要一个基于数据估计绘图的函数(当然也可以做多个估计)。

1.6 探索二元数据和分类数据

  分类数据通常按比例总结,可以使用条形图将它可视化。

  类别用于表示不同类型的事物(例如苹果和橘子,男性和女性)、因子变量的等级(例如低、中和高),或由组距分隔的数值型数据。

  期望值是对每个数值与该数值出现概率的乘积求和,通常用于总结因子变量的等级。

众数
  数据集中出现次数最多的类别或值。

期望值
  如果类别可以与一个数值相关联,可以根据类别的出现概率计算一个平均值。

条形图
  在绘图中,以条形表示每个类别出现的频数或占比情况。

饼图
  在绘图中,圆饼中的一个扇形部分表示每个类别出现的频数或占比情况。

  • 如何将 数值型数据转换为分类数据
    • 通过对数据创建组距,生成了频数表。这同时也将数值型数据转换为排序的因子。就此而言,直方图和条形图是类似的,除非条形图中 x 轴上的类别不是有序的。将数值型数据转换为分类数据是非常重要的,它是数据分析中的一个重要步骤。该转换降低了数据的复杂度和规模,并有助于发现特征间的关系,尤其是在分析的初始阶段。

1.7 相关性

  相关系数测量了两个变量间相互关联的程度。如果变量 v1 的高值随变量 v2 的高值的变化而变化,那么v1 和 v2 是 正相关 的。如果变量 v1 的高值与变量 v2 的低值的变化相关联,那么 v1 和 v2 是 负相关 的。

相关系数
  一种用于测量数值变量间相关程度的度量,取值范围在 -1到+1之间。 如果相关系数为 0,那么表示两个变量间没有相关性。但是注意,数据的随机排列将会随机生成正的或负的相关系数。

点积 的一种标准化变体就是相关系数,该度量更为有用。对于两个总是保持同一尺度的变量,相关系数给出了两者间相关性的估计值。在计算 皮尔逊相关系数 时,要将变量 v 1 v_1 v1 的平均偏差 乘以变量 v 2 v_2 v2 的平均偏差,再除以标准偏差之积,计算公式如下:
r = ∑ i = 1 N ( x i − x ˉ ) ( y i − y ˉ ) ( n − 1 ) S x S y r=\frac{\sum_{i=1}^{N}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{(n-1) S_{x} S_{y}} r=(n1)SxSyi=1N(xixˉ)(yiyˉ)

  • 其他相关性估计量
    • 统计学家早就提出了其他类型的相关系数,例如 斯皮尔曼秩相关系数( Spearman’s rho)、肯德尔秩相关系数( Kendall’s tau)等基于数据秩的相关系数。由于这些估计量操作的是秩,而非数据值,所以它们对离群值稳健,并可以处理特定类型的非线性。但是在探索性数据分析中,数据科学家通常会坚持使用皮尔逊相关系数及其一些稳健的替代者。多数情况下,基于秩的估计量适用于小规模的数据集以及特定的假设检验。

相关矩阵
  将变量在一个表格中按行和列显示,表格中每个单元格的值是对应变量间的相关性。

散点图
  在绘图中,x轴显示一个变量的值,y轴显示另一个变量的值。

1.8 探索两个及以上变量

  上面介绍的估计量都是我们熟知的,比如均值和方差。计算这些估计量时,我们一次仅查看一个变量,这被称为 单变量分析。而相关性分析是比较两个变量间关系的一种重要方法,这是 双变量分析。下面包含两个及以上变量的估计量及绘图,即 多变量分析
主要术语

列联表
  一种对两个或两个以上分类变量做计数的表格。

六边形图
  一种用于两个数值变量的绘图,图中使用六边形表示记录的组距。

等势线图
  一种类似于地形图的绘图,显示了两个数值型变量的密度情况。

小提琴图
  一种类似于箱线图的绘图,但是显示的是密度估计量。

  六边形图和等势线图是有用的工具,它们支持以图形方式同时查看两个数值型变量,不会受数据规模的影响。

  箱线图和小提琴图允许根据分类变量绘制数值型变量。

2. 数据和抽样分布

2.1 随机抽样和样本偏差

  数据的质量通常比数量更重要,而随机抽样可以降低偏差,提高数据的质量(否则,实现成本可能很高)。

样本
  大型数据集的一个子集。

总体
  一个大型数据集,或是一个构想的数据集。

N(或n), x ‾ \overline{x} x μ μ μ
  一般用 N 表示总体的规模,n 表示样本的规模。总体中的样本均值一般用符号 x ‾ \overline{x} x 表示,而总体的均值一般用 μ μ μ 表示。

随机抽样
  从总体中随机抽取元素到样本中。

分层抽样
  对总体分层,并在每层中做随机抽样。

简单随机抽样
  在不对总体分层的情况下,做随机抽样所得到的样本。

样本偏差
  样本对总体做出了错误的解释。

  统计偏差是一些系统性的 测量误差抽样误差,它是在测量或抽样过程中产生的。我们应严格区分由随机选取 所导致的误差和由 偏差 所导致的误差。以开枪射击一个目标这一物理过程为例。并非每次射击都能击中绝对意义上的靶心,或者说很少能击中。虽然无偏过程也会产生误差,但所产生的误差是随机的,并且不会强烈地趋向于任意方向。

  采用 分层抽样 时,我们将总体分成多个层,并在每一层中做随机抽样。例如,在一次现民意调查中,可能需要了解美国白人、非裔美国人和拉美裔美国人的选举倾向。如果我对总体做一次基本的随机抽样,得到的样本中可能非裔和拉美裔美国人人数过少。因此分层抽样中,需要对不同的层赋予不同的权重,以生成对等的抽样规模。

2.2 选择偏差

偏差
  系统性误差。由于测量或观测不能代表总体而出现系统性误差时,就会产生偏差。

  指定一个假设,然后遵循随机化和随机抽样的原则收集数据,可以确保不会产生偏差。

  所有其他类型的数据分析都有产生偏差的风险,风险来自数据的采集和分析过程,包括在数据挖掘中反复地运行模型、在研究中窥探数据,以及事后选取有意义的事件。

数据窥探
  为得到感兴趣的结果,在数据中做大量的查找。

大规模搜索效应
  由于重复的数据建模,或使用大量的预测变量对数据建模所导致的偏差或非可重现性。

  反复地查看大规模数据集是数据科学中的一个关键价值主张,所以我们需要关注选择问题。数据科学家特别关注的一种选择偏差形式,就是被约翰·埃德称为 大规模搜索效应 的问题。如果在大规模数据集上反复运行不同的模型,并提出不同的题,我们肯定能发现一些有意思的现象。但是我们所发现的结果是否的确具有意义?还是仅是一些离群值?

  为了避免这一问题,我们可以使用验证集去验证结果的性能,有时可能需要多个验证集。埃德倡议使用一种被称为 目标混洗( target shuffle)的方法。该方法本质上就是一种 置换检验,验证由数据挖掘模型所预测的关联关系的合法性。

  在统计学中,除了大规模搜索效应之外,选择偏差的典型形式还包括 非随机抽样,主观随机挑选数据、选取突出特定统计效应的时间间隔,以及在结果看上去“具有意义”时停止实验。

2.3 统计量的抽样分布

样本统计量
  对抽取自大规模总体中的样本做计算,所得到的一些度量值。

数据分布
  单个 在数据集中的频数分布。

抽样分布
  一个样本统计量 在多个样本或重抽样中的频数分布。

中心极限定理
  当样本的规模增大时,抽样分布呈正态分布的趋势。

标准误差
  多个样本间样本统计量 的变异性(标准偏差)。不要与标准偏差混淆,后者指的是单个数据 的变异性。

标准误差 是一种单变量度量,它总结了单个统计量抽样分布的变异性;标准误差可以根据样本值的标准偏差 s s s 和样本规模 n n n,使用基于统计学的方法进行估计,

 标准误差  = s n \text { 标准误差 }=\frac{s}{\sqrt n}  标准误差 =n s


  从总体中抽取样本,通常是为了测量某个样本统计量,或是使用统计学或机器学习模型进行建模。鉴于估计量或模型是基于某个样本的,因此其中可能存在误差,也可能会由于抽取样本的不同而有所差异。我们需要了解这种差异究竟如何,即我们的主要关注点在于抽样的变异性。如果有大量的数据,那么我们可以从中抽取更多的样本,进而直接观样本统计量的分布情况。只要数据易于获取,那么我们一般会使用尽可能多的数据去计算估计量或拟合模型,而非总是使用从总体中抽取更多样本的方法。

  区分单个数据点的分布(即数据分布)和样本统计量的分布(即 抽样分布)非常重要。

  通常,样本统计量(如均值等)的分布要比数据本身的分布更加规则,分布的形状更趋向于正态分布的钟形曲线。统计所基于的样本规模越大,观点愈发成立。此外,样本的规模越大,样本统计量的分布就越窄。

2.4 自助法

  自助法(即对数据集做 有放回的抽样)是一种评估样本统计量变异性的强大工具。自助法可以类似的方式应用于各种场景中,无须深入探究抽样分布的数学近似,去估计统计量的抽样分布。

  用于预测模型时,聚合多个自助样本的预测(即 Bagging方法),要优于使用单个模型的预测。

自助样本( bootstrap sample)
  要估计统计量或模型参数的抽样分布,一个简单而有效的方法是,从样本本身中有放回地抽取更多的样本,并对每次重抽样重新计算统计量或模型。这一过程被称为 自助法。自助法无须假设数据或抽样统计量符合正态分布。

  使用自助法对规模为 n n n 的样本做均值重抽样的算法实现如下

  • 抽取一个样本值,记录后放回总体。
  • 重复 n 次。
  • 记录 n 个重抽样的均值。
  • 重复步骤1~3多次,例如 r 次。
  • 使用 r 个结果:
    • 计算它们的标准偏差(估计抽样均值的标准误差);
    • 生成直方图或箱线图;
    • 找出置信区间。

  称 r 为自助法的迭代次数,r 的值可任意指定。迭代的次数越多,对标准误差或置信区间的估计就越准确。上述过程的结果给出了样本统计量或估计模型参数的一个自助集,可以从该自助集查看统计量或参数的变异性。

重抽样
  在观测数据中重复抽取样本的过程,其中包括自助过程和置换(混洗)过程。

  有时重抽样这个词等同于自助法。在更多情况下,重抽样 还包括置换过程。置换过程组合了多个样本,并且抽样可能是无放回的。但是在任情况下,自助法 都是指对观测数据集做有放回的抽样。

2.5 置信区间

自助法 是一种构建置信区间的有效方法。

  置信区间是一种以区间范围表示估计量的常用方法。数据越多,样本估计量的变异性越小。所能容忍的置信水平越低,置信区间就越狭小。

置信水平
  置信区间所给出的百分比被称为 置信水平。该区间是从同一总体中以同一方式构建的,可以包含我们感兴趣的统计量。

  置信水平越高,置信区间越宽。此外,样本规模越小,置信区间也会越宽,即不确定性越大。两者都成立。如果要在数据更少的情况下增加置信度,那么我们必须让置信区间足够宽,以确保捕获真实值。

区间端点
  置信区间的两端。

  不确定性当然不受人待见。人们(尤其是专家)很少说:“我不知道。” 分析人员和管理虽然会承认不确定性的存在,但是很少会过于信任以单一数值呈现的估计量,即点估计。为了解决这一普遍性问题,我们可以使用一个范围而不是单一的值去表示估计量。统计抽样原理是置信区间的实现基础。

  置信区间通常以覆盖程度的形式给出,表示为(高)百分比,例如90%或95%。对 90%置信区间的一种理解方式是,该区间涵盖了样本统计量自助抽样分布中间90%的部分。更通用的理解是,在采用类似抽样过程的情况下,样本统计量的 x% 置信区间,表明该区间平均在 x% 的情况下包含类似的样本估计量。

  给定样本规模 n,并指定了一个感兴趣的样本统计量,计算自助法置信区间的算法如下。

  • 从数据中有放回地抽取规模为 n 的随机样本(重抽样)。
  • 记录重抽样中感兴趣的统计量。
  • 多次重复步骤 1~2,例如 r 次。
  • 对于 x % x% x 置信区间,从分布的两端分别对 r r r 个重抽样结果切尾 [ ( 1 − [ x / 100 ] ) / 2 ] % [(1-[x/100])/2]\% [(1[x/100])/2]%
  • 切尾点就是 x% 自助法置信区间的区间端点。

在这里插入图片描述

规模为20、均值为57573美元的样本,申请贷款者的年收入均值的 90% 置信区间

2.6 正态分布

  正态分布还曾使用过 “误差分布” 这一名称。从统计学角度看,误差 表示实际值与样本均值等统计学估计量间的差异。例如,标准偏差 基于真实值与均值间的误差。高斯对正态分布的贡献来自于他对天体测量误差的研究,这一误差已被证明是符合正态分布的。

  在统计学的发展史中,正态分布有着十分重要的地位,因为它允许从数学上近似不确定性和变异性。

  虽然原始数据通常并不符合正态分布,但误差 通常是符合正态分布的。对于大规模样本的均值和总数,也是一样的。

误差
  数据点与预测值或均值间的差异。

标准化
  数据值减去均值,再除以标准偏差。这一过程被称为 归一化标准化

z 分数
  单个数据,点标准化的结果。正太分布有时也被称为 z 分布。

  要将数据转换为 z分数,需要减去数据的均值,再除以标准偏差。这样,所生成的数据才可以与正态分布进行对比。

标准正态分布
  均值为0、标准偏差为1的正态分布。

QQ图
  对样本分布与正态分布间接近程度的可视化绘图。正太QQ图的原理 - 参考链接

  对正态分布的一个常见误解是,该分布之所以被称为“正态分布”,是因为其中大部分数据符合正态分布,即数据值是正态的。然而,数据科学项目中使用的大部分变量(事实上,大多数原始数据)通常并不是正态分布的。正态分布源于很多统计量在抽样分布中是正态分布的。即便如此,只有在经验概率分布或自助法分布不可用时,才会使用正态性假设作为最后一招。

在这里插入图片描述

2.7 长尾分布

  大部分数据是不符合正态分布的,假设数据符合正态分布,这可导致对极端事件产生错误的估计(即“黑天鹅”现象)。

  虽然 正态分布非常适用于误差和样本统计量的分布,也非常有用,但是它并未表示出原始数据的分布特性。有时,数据的分布是高度 偏斜(即不对称)的,如借款者的收入数据。有时,数据也会是 离散 的,如二项分布数据。对称分布和不对称分布都可能具有长尾效应。数据分布的尾部,对应于数据中的极值,包括极大值和极小值。在实际工作中,长尾问题(以及如何避免出现长尾问题)备受关注。纳西姆·塔勒布( Nassim Taleb)提出了 黑天鹅 理论,该理论预测异常事件(如股市崩盘)发生的可能性远大于正太分布的预测。


  一个频数分布的狭长部分,其中相对极值出现的频数很低。

偏斜
  分布的一个尾部长于另一个尾部。

2.8 学生 t 分布

t 分布通常被称为学生 t 分布。t 分布呈正态分布形状,但是钟形稍厚,尾部略长。t 分布广泛用于描述样本统计量的分布。样本均值的分布通常呈 t 分布形状。t 分布是一个分布家族,家族中的每个成员根据样本规模的不同而有所不同。样本的规模越大,t 分布就越趋向于正态分布形状。

t 分布被广泛地用作样本均值分布、两个样本均值间的差异、回归参数等的参考基础。

n
  表示一个样本的规模。

自由度
  自由度是一个参数,允许根据不同的样本规模、统计量和组数对t分布进行调整。

  可以将一组不同的统计量标准化,然后与t分布进行对比,并根据 抽样变异性估计 置信区间。考虑一个规模为 n 的样本,其中样本均值 x ‾ \overline{x} x 已经计算出来。如果 s 是样本的标准偏差,那么样本均值周边90% 的置信区间由下式给出。
x ˉ ± t n − 1 ( 0.05 ) × s n \bar{x} \pm t_{n-1}(0.05) \times \frac{s}{n} xˉ±tn1(0.05)×ns

  其中, t n − 1 ( 0.05 ) t_{n-1}(0.05) tn1(0.05) 是自由度为(n-1)情况下的 t t t 统计量值,它表示在 t 分布的两端分别 “截去” 了5%。t 分布能为样本均值的分布、两个样本均值间的差异、回归参数等统计量提供参考。

  要让t分布准确地解释样本统计量的特性,需要样本统计量的分布形状类似于 正态分布。t 分布之所以被广泛使用是基于这样一个事实:即便底层的总体数据并不符合正态分布,但样本统计量通常符合正态分布。该现象被称为 中心极限定理

  中心极限定理指出,即便原始总体不符合正态分布,但是只要样本的规模足够大,并且数据并非在很大程度上偏离正常值,那么从多个样本得到的均值将会呈现出我们所熟知的钟形正态曲线。在使用抽样分布做推理时,即置信区间和假设检验中,中心极限定理允许我们使用t分布这样的近似正态公式。

2.9 二项分布

当你遇到一个事情,如果该事情发生次数固定,而你感兴趣的是成功的次数,那么就可以用二项分布的公式快速计算出概率来。参考链接

试验
  一次输出离散值的事件,例如,一次硬币抛掷。

成功
  一次试验的输出为我们感兴趣的结果。
同义词:1(相对于0)

二项
  具有两个输出
同义词:是/否、0/1、二元

二项试验
  有两种输出的试验。
同义词:伯努利试验

二项分布
  在多次试验中(例如 x 次),成功次数的分布。
同义词:伯努利分布

  二项分布的 均值 n × p n×p n×p,也可以将均值视为 n 次试验的期望成功次数,其中每次试验的功概率是 p p p。 二项分布的 方差 n × p ( 1 − p ) n×p(1-p) n×p(1p)。如果试验的次数足够多(尤其是当 p 接近于0.5时),二项分布几乎等于正态分布。事实上,计算大规模样本的二项概率对计算能力的要求很高,因此大多数统计程序会使用具有一定均值和方差的正态分布给出近似计算。

  当 n 很大并且 p 不接近于0(或1)时,二项分布可使用正态分布近似。

2.10 泊松分布、指数分布、韦伯分布

如果你想知道某个时间范围内,发生某件事 x 次的概率是多大。可使用泊松分布解决,比如一天内中奖的次数,一个月内某机器损坏的次数等。

  如果事件发生率为常数,那么可以用 泊松分布 对单位时间或空间内的事件数量进行建模。在这种场景下,可以用 指数分布 对两个事件间的时间间隔或距离建模。

  如果事件发生率会随时间变化(例如,设备故障率的增大),可以使用 韦伯分布 建模。

λ \lambda λ
λ \lambda λ 表示在指定时间或空间间隔中,事件发生数量的均值。均泊公布的方差也是 λ \lambda λ

泊松分布
  单位时间内或单位空间中事件数量的频数分布。

  我们可以根据先验数据估计单位时间内或单位空间中的平均事件数量。但是我们可能也想知道,单位时间或单位空间之间事件的差异情况。泊松分布 通过对很多单位抽样,可以告诉我们单位时间内或单位空间中事件的分布情况。

指数分布
  在时间或距离上,从一个事件到下一个事件的频数分布。

  指数分布可以建模各次事件之间的时间分布情况,例如,网站坊问的时间间隔,汽车抵达收费站的时间间隔。它所使用的参数 λ \lambda λ 与泊松分布一样。在工程领域,指数分布可用于故障时间的建模;在过程管理领域,指数分布可用于对每次服务电话所需的时间进行建模。

韦伯分布
  泛化版本的指数分布。韦伯分布允许事件发生的速率随时间变化。

  在某些情况下,事件发生率并不能随时间的变化而保持恒定。如果事件的变化周期远大于事件在一般情况下的发生间隔,并没有问题。我们只需将分析切分为多个间隔段,保持每段中的事件发生率相对固定即可。但是,如果事件发生率在每个间隔中也会发生变化,那么指数分布或泊松分布就不再有用了。在机械故障问题中,机器发生故障的风险会随时间的增加而增大,这时可能就会出现这种情况。韦伯分布 是指数分布的一种延伸,它通过指定形状参数 β \beta β,允许事件发生率产生变化。如果 β > 1 \beta>1 β>1,那么事件发生率会随时间增大;如果 β < 1 \beta <1 β<1,那么事件发生率会随时间降低。由于我们使用韦布分析的是发生故障的时间,而非事件发生率,因此分布的第二个参数表示的是特征生命,而非每个时间间隔中的事件发生率。该参数也被称为比例参数,用 η \eta η 表示。

  在使用韦伯分布时,需要估计 βη 这两个参数。我们可以使用软件对数据建模,生成韦伯分布的最优拟合估计。


知乎 - 二项分布、泊松分布和正态分布的区别及联系?

  1. 伯努利是扔一次硬币
  2. 二项分布是多次伯努利,即扔多次硬币
  3. 泊松分布是 p p p 很小的二项,即扔好多好多次硬币,且扔出正面概率极小
  4. 正态分布是 n n n 很大的二项,即扔好多好多次硬币,且硬币是完全相同的

3. 统计实验和显著性假设

3.1 A/B 测试

  A/B测试将实验分成两个组开展,进而确定两种处理、产品、过程等中较优的一个。在两组实验中,一般会有一组采用现有的标准处理,或者是不执行任何处理,称为 对照组,而另一组称为 实验组。实验中的一个典型假设是实验组要优于对照组。

处理
  实验对象所接触的东西,例如药品,价格,Web标题等。

实验组
  执行特定处理的一组对象。

对照组
  执行标准处理或不执行处理的一组对象。

随机化
  随机地分配实验对象以进行处理的过程。

实验对象
  接受处理者,例如Web访问者、病人等。

检验统计量
  用于检验处理效果的度量。

  A/B测试的结果易于测量,因此被广泛地用于Web设计和营销中。下面列出了一些使用A/B测试的例子。

  • 测试两种土壤处理,以确定哪种土壤更适合育种。
  • 测试两种疗法,以确定哪种疗法对于抑制癌症更有效。
  • 测试两种价格,以确定哪种价格的净利润更高。
  • 测试两个Web标题,以确定哪个标题会带来更多的点击量。
  • 测试两条网络广告,以确定哪条广告能转化为更多的购买行为。

  A/B测试有 对象,对象会分配给两组处理中的一组。对象可能是一个人、一种植物种子或一位Web访问者。注意,对象需要接受处理。在理想情况下,对象是 随机指定(即随机分配)给一组处理的。这样,两个实验组之间的任何差异,只可能是由下面两个因素所导致的。

  • 不同处理的效果。
  • 将对象分配到不同处理过程中的运气因素。一些对象的效果本来就很好,而随机分配可能会导致效果好的对象集中在处理A或处理B中。

  在A/B测试中,我们也需要关注比较A组和B组时使用的 检验统计量(即度量)。在数据科学中,最常用的度量可能是二元变量,例如点击或未点击,购买或不购买,作弊或未作弊,等等。

A/B测试实例尚未整理…

3.2 假设检验 / 显著性检验

  假设检验也称 显著性检验,在公开发表的传统统计学研究中随处可见。假设检验的目的是确定一个观测到的效果是否是由随机性(random chance)造成的。

零假设
  完全归咎于偶然性的假设。

备择假设
  与零假设相反,即实验者希望证实的假设。

单向检验
  在假设检验中,只从一个方向上计数偶然性结果。

双向检验
  在假设检验中,从正反两个方向上计数偶然性结果。

  • 在构建A/B测试时,我们通常会预先构想一个假设,例如假设价格B可能会带来更高的利润。那么我们 为什么需要做出一个假设?为什么不能只是查看实验的结果,然后选择处理结果更好的那一组?

    • 问题的答案在于,人们在思想上倾向于低估天然随机行为的范围。一个典型的例证就是难以预料极端事件,即 黑天鹅事件(2.7章节)。另一个例证是人们倾向于将随机事件曲解为具有某种显著性的模式。为此,人们提出了统计假设检验方法,目的是使研究人员免受随机性的愚弄。

  在一个设计适当的A/B测试中,处理A和处理B之间任何可观测到的差异、必定是由下面两个因素之一所导致的。

  • 分配对象中的随机可能性
  • 处理A和处理B之间的真实差异

统计假设检验 是对A/B测试(或任何随机实验)的进一步分析,意在评估随机性是否可以合理地解释A组和B组之间观测到的差异。

3.3 重抽样

重抽样 是指从观测数据中反复地抽取数据值,目标是评估一个统计量中的随机变异性。重抽样还可用于评估并提高一些机器学习模型的准确性。例如,对于使用多个自助数据集构建的决策树模型,可以通过Bagging过程计算其平均值。

  重抽样过程主要有两种类型,即自助法置换检验。自助法用于评估一个估计量的可靠性。

置换检验
  将两组或多组样本组合在一起,并将观测值随机地(或穷尽地)重新分配给重抽样。
同义词:随机化检验、随机置换检验、准确检验

有放回,无放回
  在抽样时,所抽取的元素在下一次抽取前是否放回样本中。

置换 过程涉及两组或多组样本,通常是A/B测试或其他假设检验中的组。置换意味着改变一组值的顺序。要对一个假设进行 置换检验,首先要将从A组和B组(当然还可以包括其他组,例如C、D……)中得到的结果组合在一起。这就是零假设的逻辑,即无论处理指定给哪个组,都是无差别的。然后,我们从组合集中随机抽取出各个组,并查看组间的差异情况,实现对假设的检验。置换过程如下。

  1. 将各个组得出的结果组合为一个数据集。
  2. 对组合得到的数据做随机混洗,然后从中随机抽取(有放回)一个规模与A组相同的重抽样样本。
  3. 在余下的数据中,随机抽取(无放回)一个规模与B组相同的重抽样样本。
  4. 如果还有C组、D组甚至更多的组,执行同样的操作。
  5. 无论对原始样本计算的是哪一种统计量或估计量(例如,组比例差异),现在对重抽样进行重新计算,并记录结果。这构成了一次置换迭代。
  6. 重复上述步骤R次,生成检验统计量的置换分布。

  现在回头查看所观测到的组间差异,并与置换差异进行对比。如果观测到的差异位于置换差异内,那么置换检验的结果并不能证实任何事情,因为观测到的差异落在偶然可能产生之差异的范围内。但是,如果观测到的差异大部分落在置换分布之外,那么我们就可以得出“与偶然性无关”这一结论。如果使用专业术语描述,我们称差异是统计显著的。


置换检验 将多个样本组合在一起,并做随机混洗。对混洗后的值做分组并重抽样,计算我们感兴趣的统计量。重复上述过程,并在表格中记录重抽样统计量的情况。

  对比统计量的观测值与重抽样分布,就可以判定观测到的样本间差异是否由 偶然性 导致的。


  置换检验除了使用前面介绍的随机混洗过程(也称随机置换检验或随机检验)之外,还有两种重要变体:

  • 穷尽(exhaustive)置换检验
  • 自助(bootstrap)置换检验

  穷尽置换检验并不是随机混洗并分组数据,而是尝试所有可能的分组。穷尽置换检验只适用于规模较小的样本。如果做大量的重复混洗,那么随机置换检验的结果会近似于穷尽置换检验的结果,并在极限上逼近。穷尽置换检验有时也被称为准确检验,因为其统计学属性确保了零模型不会被检验为比 a a a 值水平更显著。

  自助置换检验是在置换检验第二步和第三步的抽取中,进行有放回抽样,而非无放回抽样。这样,重抽样过程不仅建模了随机分配对象给处理的过程,而且建模了从总体中随机抽取对象的过程。这两个都是统计学过程,但是它们之间的差别过于复杂,因而不被数据科学实践所关注。

3.4 统计显著性和 p 值

  统计学家引人了统计显著性的概念,用于衡量一个实验(也可以是对已有数据的研究)所生成的结果是否会比随机情况下可能给出的结果更极端。如果生成的结果超出了随机变异的范围,则我们称它是统计显著的。

显著性检验 (即 假设检验)可以用于确定观测到的效果是否落在零假设模型的随机变异范围内。相对于数据科学而言,显著性检验在正式的研究报告中更加重要。但是近年来,即便是对于研究报告,p值的重要性也一直在下降。

p p p
  对于一个加入了零假设的偶然性模型, p p p 值指得到与观测结果一样不寻常或极端的结果的概率。

α \alpha α
  a值在实际结果的确是统计显著的情况下,α值指偶然性结果必须超出的“不寻常性”概率的阈值。

第一类错误
  错误地将一个由随机导致的效果归结为真。

第二类错误
  错误地将一个为真的效果归结为由随机导致的(即由随机性导致的)。

  在评估统计显著性时,可能会出现上面两种类型的错误。事实上,第二类错误并不是一种错误,它是由于判断样本的规模过小,而无法检测到效果。如果p值不足以表明统计显著性(例如,超过5%),我们应称其为“效果未验证”增大样本的规模,可能会生成较小的p值。

  • Web 测试结果-示例
结果价格 A价格 B
点击转化为购买200182
点击没有转化为购买2353922406
  • 价格A的转化情况比价格B好近乎5%(0.8425%对比0.8057%,差异为0.0368%)。当业务量很大时,这一差异就会具有显著的意义。一个有超过4.5万条数据的集合,完全可以被视为“大数据”,没有必要做统计显著性检验,统计显著性检验主要针对的是小规模样本中的抽样变异性。不过我们也能看到,此例中的转化率非常低,甚至小于1%,以至于实际有意义的值(即转化)只有数百个。事实上,所需的样本规模取决于转化率。我们可以使用重抽样,检验价格A与价格B之间的转化差异是否位于随机变异的范围内。这里所说的 随机变异(chance variation),是指在概率模型中加入“两者在转换率上不存在差异”这一零假设后,由模型生成的随机变异性。
      下面我们给出一个置换过程,该过程的目的是要回答如下问题:“如果两种价格具有相同的转换率,那么随机变异的方差能否产生5%的差异?
    • ① 将所有的样本结果置于同一个桶中。同一个桶表示假定两种价格具有相同的转换率。在本例中,我们有200+182=382个1,23539+22406=45945个0,这样转换率为382/(45945+382)=0.008246=0.8246%。
    • ② 在桶中做 随机混洗,并从中抽出规模为23739(与价格A 的 n 值相同)的重抽样,记录抽样中 1 的个数。
    • ③ 记录桶中余下22588(与价格B的 n值相同)个数据点中 1 的个数。
    • ④ 记录两者中 1 的比例在百分位数上的差异。
    • ⑤ 重复第2步到第4步多次。
    • ⑥ 计算其中差异大于或等于0.0368%的频数。
  • 使用python 代码绘图如下所示,图中显示的直方图是1000次重抽样的结果。在本例中,察到的差异0.0368落在随机差异的范围内。

在这里插入图片描述
  在衡量统计显著性时,简单地查看绘图并不是一个非常精确的方法,人们更关注的是 p p p。p 值表示随机模型生成的结果比观测结果更极端的频数。在估计置换检验的p值时,可以采用置换检验中生成大于或等于观测差异值的检验次数所占的比例。

print(np.mean([diff > obs_pct_diff for diff in perm_diffs]))  # 0.332

  结果显示p值为 0.332,这意味着随机性给出的差异,有望在约33.2%的情况下大于或等于观测差异1。

  在本例中,我们不需要使用置换检验也可以获得p值。根据二项分布,可以使用正态分布近似估计p值,为 0.3498。


  完全根据研究人员的判断力去确定一个结果是否“太不寻常”因而是偶然的,统计学家无疑会对此做法大皱眉头。在统计学家看来,正确的做法是提前设定一个值,例如“超过随机(零假设)结果5%”。这样的阈值被称为 α \alpha α。a值的常见取值是5%和1%。a值的选取具有一定的随意性——该过程无法确保在x%的情况下做出正确的决策。原因在于我们要回答的概率问题并不是“随机发生的概率是多少”,而是“给定一个随机模型,出现极端结果的概率是多少”。这样我们需要对随机模型的适当性进行逆推,但是在判断过程中没有任何可依据的概率。

  2016年3月,美国统计协会(ASA)发表了一份关于 p值 使用的警告性声明,其中揭示了人们对p值的误解程度。声明指出了针对研究人员和期刊编辑的六项原则:

  • p值可以表示数据与指定统计模型间的不兼容程度。
  • p值并不能测量所研究的假设为真的概率,也不测量仅通过随机性生成数据的概率。
  • 不应仅根据p值是否超过了给定的阈值,就得出一个科学结论,或做出一个商业或政策决定。
  • 正确的推断需要具有全面的报告和完全的透明度。
  • p值(或统计显著性)并不测量效果的规模,也不测量结果的重要性。
  • p值本身并不能提供一种对模型或假设的很好量度。

  如果想知道一个看上去有意义并且有用的模型结果是否落在随机变异的范围内,p值 是一种有用的指标。作为一种在实验中使用的决策工具,p值不应被视为一种决定性的因素,而应被视为是另一种可以 辅助决策 的信息。例如,有时可以将p值作为一些统计学或机器学习模型的中间输入值,根据p值决定一个特征应该包含在模型中,还是应该从模型中排除。

3.5 t 检验

  在计算机出现之前,重抽样检验并不实用,统计人员使用标准参考分布。

检验统计量
  对我们所关注的差异或效果的度量。
  检验统计量应该做归一化,这样才能与参考分布做比较。

t 统计量
  归一化的检验统计量。

t 分布
  一种用于比较所观测到的 t 统计量的参考分布。对于 t 检验,参考分布是从零假设生成的。

  所有的显著性检验都要求指定一个 检验统计量 去测量所关注的效果,并确定观测到的效果是否落在随机变异的范围内。在重抽样检验中,数据的规模并不是十分重要。我们从数据本身创建参考(零假设)分布,并据此使用检验统计量。

  统计假设检验形成于20世纪20年代和30年代当时无法做到对数据随机混洗数千次,以用于重抽样检验。但是统计学家发现,t 检验 很好地近似了置换(随机混洗)分布。t 检验基于 Gossett 提出的 t 分布,可以在十分常见的两个样本的比较(即A/B测试)中使用,只要样本中的数据是数值型的。但是在使用 t 分布时,为了排除规模因素的影响,必须对检验统计量做 归一化处理

3.6 多重检验

  在研究工作或数据挖掘项目中,多重性(多重比较、多变量、多模型等)增加了仅根据随机对菜个结果得出显著性结论的风险。

  对于涉及多重统计比较的情况(即显著性的多重检验),可以使用 统计校正 过程。

  在数据挖掘中使用结果变量带标记的 验证样本,有助于避免得到误导性的结果,减少过拟合。

第一类错误
  错误地得出一个效果是统计显著的结论。

错误发现率
  在多重检验中,犯第一类错误的比率。

p值校正
  用于在同一数据上做多重检验。

过拟合
  拟合了噪声。

  给定随机生成的20个预测变量和一个结果变量,如果进行一组20次 α = 0.05 \alpha=0.05 α0.05 水平的显著性检验,那么很可能至少有一个预测因子会(错误地)显示为统计显著的。如上所述,这被称为 第一类错误。在计算第一类错误的概率时,可以首先计算在0.05水平上所有预测因子将被正确检验为非统计显著的概率。在本例中,一个预测因子被正确地检验为非统计显著的概率是0.95,那么全部20个预测因子被正确地检验为非统计显著的概率就是 0.95 × 0.95 × 0.95 × … 0.95×0.95×0.95×… 0.95×0.95×0.95×,即 0.9 5 20 = 0.36 0.95^{20}=0.36 0.95200.36。至少一个预测因子将被错误地验证为显著的概率,就是1减去所有预测因子都是非统计显著的概率等于0.64。

  上面介绍的问题涉及数据挖掘中的 过拟合 问题,即“模型拟合了噪声”。如果我们添加的变量越多,或者运行的模型越多,那么偶然出现“统计显著性”的概率就会越大。
  在有监督学习任务中,会给出一个验证集,让模型评估从未见过的数据,从而降低了风险。在没有已标记验证集的统计学习和机器学习任务中,仍然存在由统计噪声得出结论的风险。

  另一个例子是在临床试验中,我们可能想要在多个阶段查看某种治疗的效果。在每个阶段,我们都可以提出多个问题,每个问题都会增加被随机性愚弄的可能性。为了解决这一问题,统计学给出了一种 校正(adjustment) 过程。相比于单一假设检验所设置的统计显著性界限,校正过程设置了更严格的统计显著性界限。校正过程通常涉及根据校正检验的次数“划分 a 值”。这导致了对每次检验使用较小的a值,即对于统计显著性更严格的界限。Bonferroni校正 就是这样的一种过程,它仅是将 a 值除以观测次数 n。

3.7 自由度

自由度 应用从样本数据计算得到的统计量,指可以自由变化的值的个数。例如,对于一个具有10个值的样本,如果知道了样本的均值以及样本中的9个值,那么第10个值也是已知的,即只有9个值是自由变化的。

n,即样本规模
  在数据中,观测(也称为行或记录)的数量。

d.f.
  degrees of freedom(自由度)的简写。

  自由度是很多统计检验的一个输入。例如,在计算方差和标准偏差时,分母 n − 1 n-1 n1 就是自由度。为什么要使用自由度?在使用一个样本估计总体的方差时,如果在分母上使用了,那么估计的偏差就会偏小。如果在分母上使用了 n-1,这时估计就是无偏的。

自由度 是归一化检验统计量计算的一部分,它使得归一化后的结果可以与参考分布(如 t 分布F 分布等)进行对比。

  在数据科学中,有一种场景是与自由度相关的,那就是在回归(包括逻辑回归)中使用因子化变量。如果在回归算法中使用了完全冗余的预测变量,那么算法就会产生阻塞。该问题经常出现在将分类变量因子化为二元标识(虚拟变量)的情况下。以星期为例,虽然一个星期有7天,但具体是星期几,其自由度为6。一旦我们知道某一天并不是从星期一到星期六中的任意一天,那么它一定是星期天。因此,如果在回归中包括了星期一至星期六,就意味着也加入了星期天,而由于 多重共线性(multicollinearity)问题,这将导致回归失败。

  在回归中,为避免出现多重共线性问题,在将分类变量因子化为 n − 1 n-1 n1 个标识或虚拟变量时,应考虑其中隐含的自由度概念。

3.8 方差分析

  如果我们不是要对两个组做 A/B测试,而是要对比多个包含数值型数据的组(比如A、B、C、D),这时可以使用 方差分析ANOVA,analysis of variance)。方差分析是一种检验多个组之间统计显著性差异的统计学方法。

  方差分析是对 A/B测试 中类似过程的一种扩展,用于评估各组之间的 整体方差是否落在随机变异范围内。方差分析的一个有用结果是识别出与组处理、交互效果和误差相关的方差成分。

两两对比
  对于有多个组的情况,在两个组之间做假设检验(比如对均值)。

多项检验(omnibus test)
  一种可以测定多个组均值间方差的单一假设检验。

方差分解
  从整体统计量中(例如,从整体均值、处理均值以及残差中),分离出单个值的贡献情况。

F 统计量
  一种归一化统计量,用于衡量多个组均值间的差异是否会超过随机模型的预期。

SS
  sum of square(平方和)的简写,指与某一均值的偏差。

  • 4个Web 页面黏性表-示例
      下表中显示了 4 个Web页面的黏性,体现为在页面上停留的秒数。这 4 个页面是随机切换的,因此每位Web访问者都是随机地访问其中一个页面。每个页面总共有 5 位访问者,表中的每一列都是一组独立的数据。第一个页面的首位访问者与第二个页面的首位访问者间并无联系。
页面 1页面 2页面 3页面 4
164178175155
172191193166
177182171164
156185163170
195177176168
平均值172185176162
总平均值173.75
  • 仅对两个组做比较,只需查看各组间的差异即可。对于4组均值,存在6中可能的组间比较。
    • 页面1 与页面2 相比(1 vs 2),1 vs 3,1 vs 4,2 vs 3,2 vs 4,3 vs 4。

在这里插入图片描述

4 组箱线图显示了组间的显著差异

  • 所做的两两比较越多,就越有可能被随机性愚弄。我们无须比较各页面之间所有可能的对比方式,而是可以通过整体使用单一的 多项检验 来解决这一间题:“所有的页面是否具有相同的黏性?它们之间的差异是不是由于在4个页面间随机地分配了同一组会话时间所导致的?”

  • 这里使用的检验过程就是 方差分析。下面列出对Web页面黏性做A/B/C/D测试重抽样过程,我们可以从中看到方差分析的基础所在。

    • (1)将所有数据合并成一个箱子。
    • (2)混洗,并从箱子中抽出4组样本,每组样本有4个值。
    • (3)记录每组的均值。
    • (4)记录4个均值间的方差。
    • (5)重复第2步到第4步多次(例如1000次)。
  • 这样,重抽样方差超过观测方差的比率,就是 p值


  在比较两组的均值时,可以使用 t 检验 替代 置换检验。类似地,对于方差分析而言存在一种基于F 统计量的统计检验。F统计量基于各组均值间的方差(即处理效果)与由于残差所导致的方差间的比率。比率越高,结果就越统计显著。如果数据遵循正态分布,那么根据统计学理论,统计量也应符合某种分布。由此,p 值也是可以计算的。

  数据集的观测值可以看成多个成分的总和。对于一个数据集中的任意一个观测值,可以分解为总平均、处理效果和残差。将这一过程称为 方差分解

  1. 从总平均开始(对于Web页面黏性数据,总平均为173.75)。
  2. 加入处理效果,它可能为负值(对于Web页面黏性数据,独立变量为Web页面)。
  3. 加入残差。残差也可能为负值。

  这样,对上面 A/B/C/D 测试表中左上角值(164)的 方差分解如下。

  1. 从总平均开始:173.75。
  2. 添加处理(组)效果:组均值172-173.75=-1.75。
  3. 添加残差:164-172=-8。
  4. 得到结果:164。

  上面介绍的 A/B/C/D测试 是一种 “单向” 方差分析,其中只有一个变化因子(组)。我们可以加入第二个因子,例如“周末与工作日”,并在每对组合上收集数据(周末A组、工作日A组、周末B组等)。这就构成一个 双向方差分析。可以使用类似于单向方差分析的实现方法,通过识别 “交互效应” 实现双向方差分析。在确定了总平均效果和处理效果后,将各组中的周末和工作日观测结果分成子集,并找出各个子集的均值与处理均值之间的差异。

  可以看到,方差分析(包括双向方差分析)是迈向完全统计模型(如回归和逻辑回归)的第一步。完全统计模型可以对多个因子及因子的影响情况建模。

3.9 卡方检验

  通常在Web测试中,需要一次检验多个处理,这超出了A/B测试的范围。卡方检验适用于计数数据,它可以检验数据与预期分布的拟合程度。在统计实践中,卡方 统计量的最常见用法是与 r × c r \times c r×c 列联表一起使用,以评估对变量间独立性的零假设是否合理。[ r × c r \times c r×c 表示: 行数 x列数 ]

卡方统计量
  观测数据偏离预期程度的量度。

期望值 / 期望
  在某种假设(通常是零假设)下,我们期望数据能给出的结果。

d.f.
  自由度。

卡方检验:一种重抽样方法 – 示例

  • 假设我们要对1000名访问者测试三种不同的标题:A、B和C,测试结果如下表所示
3 种不同标题的Web检验结果
标题 A标题 B标题 C
点击14812
未点击986992988
  • 从表中可以看到,各标题之间存在明显的差异。虽然实际的点击量很少,但是标题A的点击量几乎是标题B的两倍。重抽样 过程可以检验观测到的点击量是否与随机性可导致的程度有所差异。对于Web标题检验,我们需要知道点击量的预期分布。
      在本例中,我们使用了零假设,即所有3种标题具有相同的点击率,这时总体点击率为 34 / 3000 34/3000 34/3000。基于该假设,我们生成了如下表所示的列联表。
3个标题在点击率相同(零假设)情况下的期望值
标题 A标题 B标题 C
点击11.3311.3311.33
未点击988.67988.67988.67
  • 我们用Observed表示实际观测到的情况,Expected 表示采用假设情况下的期望值,皮尔逊残差(Pearson residual) R p R_{p} Rp 的定义为:
    R p =  Observed - Expected   Expected  R_{p}=\frac{\text { Observed - Expected }}{\sqrt{\text { Expected }}} Rp= Expected   Observed - Expected 

  • 皮尔逊残差 R p R_{p} Rp 测量了实际观测值与期望值之间的差异程度,如下表所示。

皮尔逊残差
标题 A标题 B标题 C
点击0.792-0.9900.198
未点击-0.0850.106-0.021
  • 卡方统计量(chi-squared statistic)是皮尔逊残差的平方和,计算公式为:
    ξ = ∑ i r ∑ j c R p 2 \xi=\sum_{i}^{r} \sum_{j}^{c} R_{p}^{2} ξ=irjcRp2

  • 其中,r 和 c 分别是列联表的行数和列数。本例中卡方统计量的值为1.666。那么它是否超出了随机模型中可能合理发生的情况呢?可以使用下面给出的 重抽样 算法进行检验。

    • (1)构造一个矩形,其中包含34个1(点击数)和2966个0(未点击数)。
    • (2)对矩阵中数据做随机混洗,然后从中独立地抽取出三组样本,每组样本的规模为1000,并计算每组样本中1的个数(点击数)。
    • (3)找出各组中混洗计数和预期计数间的平方差,并将它们相加。
    • (4)重复第2步和第3步多次(例如1000次)。
    • (5)计算重抽样偏差的平方和超过观测值的频数,这就是p值。

  统计学的渐近理论指出,卡方统计量的分布可以由 卡方分布 近似得到。适合的标准卡方分布取决于自由度。自由度与列联表的行数r 和列数c 有关。
自由度 = ( r − 1 ) × ( c − 1 ) \text{自由度} =(r-1)×(c-1) 自由度(r1)×(c1)

  卡方分布通常是偏斜的,右侧具有长尾。下图显示了自由度分别为1、2、5、10、20时的卡方分布情况。观测统计量在卡方分布中的位置越远,p值越小。

在这里插入图片描述

3.10 多臂老虎机算法

  多臂老虎机算法(multi-arm bandit algorithm)是一种检验方法,尤其适用于web测试。相比于传统的统计学实验设计方法,它实现了明显的优化,并且能更快地做出决策。

多臂老虎机
  一种假想的老虎机,提供多个拉杆供用户选择,每个拉杆对应不同的收益,用于模拟多处理实验。


  表示实验中的一个处理,例如Web测试中的标题A。

获胜
  通过实验模拟老虎机上的获胜,例如客户点击了链接。

  传统的A/B测试基于随机抽样过程,会导致过度地使用非最优处理。相比而言,多臂老虎机算法改进了抽样过程,加入了在实验过程中学到的信息,减少了非最优处理的频数。

  多臂老虎机算法还有助于有效地应对两种以上的处理。

  多臂老虎机具有多种不同的算法,能够解决如何将抽样概率从非最优处理转移到(假设的)最优处理的问题。

3.11 检验效能和样本规模

  在确定样本的规模之前,需提前确定要执行的统计检验。必须指定要检测效果的最小规模。还必须指定检测这一效果规模(检验效能)所需的概率。最后,还必须指定执行检验的显著性水平( α \alpha α 值)。

效果规模
  在统计检验中,期望能检测到的效果的最小规模,例如点击率提高20%。

检验效能
  给定样本规模,检测到给定效果规模的概率。

显著性水平
  在检验中所使用的统计显著性水平。

  在计算样本规模时,其中一个步骤是询问:“一个假设检验能否真正揭示处理A和处理B之间的差异?”作为假设检验的结果,p值不仅取决于处理A和处理B之间的真正差异,而且还取决于抽取中的运气成分,即如何选取实验组。但是,处理A和处理B之间的实际差异越大,这种差异被实验揭示的可能性也就越大;反之,如果差异越小,那么就需要更多的数据才能检测到这种差异。在棒球运动中,要区分打击率为0.350的击球手和打击率为0.200的击球手,并不需要很多的打数。而要区分打击率为0.300的击球手和打击率为0.280的击球手,则需要更多的打数。

检验效能 是指在一定的样品特性(尺寸和变异性)下,检测到指定 效果规模 的概率。例如,我们可以假设在25个打数中,区分打击率为0.330的击球手和打击率为0.200的击球手的概率是0.75。这时,效果规模就是0.130(两者打击率上的差异)。而 “检测” 意味着假设检验会拒绝 “无差异” 的零假设,并得出具有实际效果的结论。因此,在两名击球手的25打数(n=25)实验中,效果规模 为 0.130,(假设)检验效能为 0.75,即75%

  检验效能中有几个步骤是可替换的,下面给出一种相当直观的替代做法。

  • (1)从一些假设数据开始,这些数据代表了我们对所得数据的最佳猜测(可能基于先验数据)。例如,一个箱子,其中包含了20个1和80个0,用于表示一名打击率为0.200的击球手,或者包含“在网站上花费的时间”的观测值。
  • (2)在第一个样本中添加所需的效果规模,以创建第二个样本。例如,第二个箱子,其中包含了33个1和67个0,或者在每个初始的“在网站上花费的时间”增加25秒。
  • (3)从每个箱子中,抽取规模为n的自助样本。
  • (4)对两个自助样本做置换(或基于公式的)假设检验,并记录两者之间的差异是否具有统计显著性。
  • (5)重复第3步和第4步多次,并确定差异为统计显著的频数。这就是估计的检验效能。

样本规模
  检验效能计算最常用于估计所需的样本规模。

  在计算检验效能或所需的样本规模时,有四个成分是可替换的。它们分别是:

  • 样本规模
  • 要检测的效果规模
  • 执行检验的显著性水平,即 α \alpha α
  • 检验效能

  如果指定了其中三个成分,那么就可计算得到第四个成分。最常见的情况是需要计算样本的规模,因此必须指定其他三个成分。


参考链接 - 彼得•布鲁斯、安德鲁•布鲁斯(著)- 盖磊(译)-《面向数据科学家的使用统计学》
参考链接 - github - gedeck / practical-statistics-for-data-scientists
参考链接 - 机器学习算法与Python实战(微信公众号) - 数据科学家必会的10个统计分析方法
参考链接 - 机器学习算法与Python实战(微信公众号) - 统计学的一百年

  • 1
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在ns-3中实现新的运动模型,需要遵循以下步骤: 1. 创建自定义模型类:首先,创建一个新的运动模型类,继承ns-3中现有的运动模型类。例如,如果您希望创建一个基于随机游走的运动模型,可以从“RandomWalk2dMobilityModel”继承。 2. 实现必要的方法:在您的自定义模型类中实现必要的方法,例如“GetPosition”和“GetVelocity”。这些方法将返回当前位置和速度信息。 3. 注册您的模型类:将您的自定义模型类注册到ns-3系统中,以便在模拟场景中使用。可以通过调用“MobilityHelper::SetMobilityModel”方法实现此功能。 4. 配置您的模型参数:配置您的模型参数,例如速度分布和方向分布。 5. 将您的模型应用于节点:将您的模型应用于节点,以便在模拟场景中使用。可以使用“MobilityHelper::Install”方法为每个节点安装运动模型。 下面是一个简单的示例代码,展示了如何创建一个基于随机游走的运动模型: ```c++ #include "ns3/mobility-module.h" #include "ns3/random-walk-2d-mobility-model.h" using namespace ns3; int main() { // Create nodes NodeContainer nodes; nodes.Create(10); // Create mobility helper MobilityHelper mobility; // Create custom mobility model Ptr<RandomWalk2dMobilityModel> randomWalk = CreateObject<RandomWalk2dMobilityModel>(); // Set model parameters randomWalk->SetBounds(Rectangle(-100, 100, -100, 100)); randomWalk->SetTimeStep(Seconds(0.1)); randomWalk->SetMode(RandomWalk2dMobilityModel::MODE_INSIDE_BOUNDS); // Register custom mobility model mobility.SetMobilityModel(randomWalk); // Install mobility helper for each node mobility.Install(nodes); // Run simulation Simulator::Run(); Simulator::Destroy(); return 0; } ``` 在这个示例中,我们创建了一个名为“randomWalk”的自定义运动模型,并将其注册到ns-3系统中。然后,我们使用“MobilityHelper::Install”方法将该模型应用于每个节点。在模拟运行期间,模拟场景中的每个节点都将使用“randomWalk”模型进行运动。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值