DeepSort知识整理:卡方检验和马氏距离 (二)

一、 卡方 拟合优度 检验 (Chi Square Test for Goodness of Fit)

例1:什锦糖,把各种糖掺和在一起买,如:以如下比例勾兑了一种什锦糖:

类别高粱饴大白兔大虾酥酒心糖巧克力
总体比例 H040 %20 %20 %15 %5 %

H0 为真的1000块糖的总体中,抽样100块糖

类别高粱饴大白兔大虾酥酒心糖巧克力
期望频次 Expectation402020155
观测频次 Observation382418182

卡方值:把一次抽样中的观测频次和期望频次之间的差异算成一个数值。 公式如下:

χ 2 = ∑ i n ( O i − E i ) 2 E i \chi^2 = \sum_{i}^{n} \frac{(O_i - E_{i})^2}{E_i} χ2=inEi(OiEi)2

其中 E 为期望频次 Expectation, O 为观测频次 Observation, n 为类别变量的种类,在本例中n为5
χ 2 = ( 38 − 40 ) 2 40 + ( 24 − 20 ) 2 20 + ( 18 − 20 ) 2 20 + ( 18 − 15 ) 2 15 + ( 2 − 5 ) 2 5 = 0.1 + 0.8 + 0.2 + 0.6 + 1.8 = 3.5 \begin{array}{l} {\chi ^2} = \frac{{{{(38 - 40)}^2}}}{{40}} + \frac{{{{(24 - 20)}^2}}}{{20}} + \frac{{{{(18 - 20)}^2}}}{{20}} + \frac{{{{(18 - 15)}^2}}}{{15}} + \frac{{{{(2 - 5)}^2}}}{5}\\ = 0.1 + 0.8 + 0.2 + 0.6 + 1.8\\ = 3.5 \end{array} χ2=40(3840)2+20(2420)2+20(1820)2+15(1815)2+5(25)2=0.1+0.8+0.2+0.6+1.8=3.5
加入进行10k次重复抽象,可以得到10k个卡方值,做成直方图,即可得到卡方分布,在图中,横轴代表卡方值,纵轴代表次数。

在这里插入图片描述

在卡方等于3.5处画直线,比3.5(含)还极端的样本数量占总共10000次抽样的比,就是p值,本例中的p为0.4213。假设 α \alpha α为0.05,即 p > α {\rm{p}} > \alpha p>α, 表示这个样本不极端,不显著,符合H0

在这里插入图片描述

可通过根据卡方值查表计算p值:

Chi-square-table.pdf (scribbr.com)

在这里插入图片描述

  • 表中第一行表示显著性水平。第一列表示自由度。什锦糖例子中自由度为4,
  • 3.5在1.064到7.779之间,则p值可推测在0.9到0.1之间

例2:共有四款游戏,人们是否同等喜欢4款游戏。

H0同等喜欢4款游戏。

DNFLOLCFPUBG
总体分布 H00.250.250.250.25

调查问卷:你最喜欢的游戏是哪一个

DNFLOLCFPUBG
期望频次 Expectation35353535
观测频次 Observation31373042

χ 2 = ( 31 − 35 ) 2 35 + ( 37 − 35 ) 2 35 + ( 30 − 35 ) 2 35 + ( 42 − 35 ) 2 35 = 2.6857 \begin{array}{l} {\chi ^2} = \frac{{{{(31 - 35)}^2}}}{{35}} + \frac{{{{(37 - 35)}^2}}}{{35}} + \frac{{{{(30 - 35)}^2}}}{{35}} + \frac{{{{(42 - 35)}^2}}}{35}\\ = 2.6857 \end{array} χ2=35(3135)2+35(3735)2+35(3035)2+35(4235)2=2.6857

自由度为3, 2.68在1.064到7.779之间,则p在0.9到0.1之间。假设 α \alpha α为0.05,即 p > α {\rm{p}} > \alpha p>α, 表示这个样本不极端,不显著,符合H0

二、 马氏距离和卡方分布的关系

假设我们有一个 p p p的样本,其均值向量为 μ \mu μ,协方差矩阵为 Σ \Sigma Σ。对于一个样本向量 x,其马氏距离的平方计算为:

D 2 = ( x − μ ) T ∑ − 1 ( x − μ ) {D^2} = {(x - \mu )^T}{\sum ^{ - 1}}(x - \mu ) D2=(xμ)T1(xμ)
在正态分布的情况下,这个马氏距离的平方近似地服从自由度为 p p p卡方分布:
D 2 ≈ χ p 2 {D^2} \approx \chi _p^2 D2χp2

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值