均值已知检验方差_χ2检验教案:独立性检验的z统计量

577da67716429609aa4023541d65723d.png

摘要:「如无必要勿增实体」。

独立性检验在统计教学场合可以替代为 T 检验、F 检验,在研究应用场合应当替代为Odds Ratio置信区间的Fisher检验、或者独立两样本均值之差置信区间(连续性校正的)z 检验或者T 检验。
  • 2×2设计的
    独立性检验是否等价于R中的独立样本百分比检验?

2×2列联表独立性检验的虚无假设可以表述为二分变量独立样本均值一致。以Titanic数据集二等舱、三等舱男性成年乘客的死/生(154/14、387/75,下图左第二、三行)为例,独立性检验的虚无假设是:点估计

对应的总体参数为1。这个参数学名Odds Ratio,就是英文字面意思「比之比」。

8ea41ab6f9efd4016e0b9e30a0824531.png
男左女右,红殁绿存;第1~4行分别为头等、二等、三等舱及船员

虚无假设「比之比=1」,也就是说,两舱男乘客幸存率一致,即:点估计

「百分比之差」对应的总体参数为0。 幸存记为1、死亡记为0,
就是二等舱样本
=154+14枚个案的样本均值,「百分比之差」即两个样本均值之差,对应折线图下方蓝色四点中间两点的落差。

013135defe2da979ad6cc0c6e3e0abd7.png
2×2×4的列联表,解读为2×4的二分变量均值比较
## 列联表计数数据与马赛克图

在SPSS中,上述代码包含Freq变量的ds数据集可以直接使用,通过⌥D ▶ W ▶ ...菜单设置Freq为数据的权重即可,设置权重之后,与md数据集的所有结果等价。

8d71caca98e3079a61c04ea1131dcb7e.png
χ2检验SPSS常用的数据设权重的界面

容易验证,对同一数据作独立样本百分比之差的z 检验,得到的z 值平方恰好等于列联表独立性检验的

值。它们不仅虚无假设等价,连统计量(及显著性)都等价。这里的独立两组均值之差
z 检验模型设定是:下一轮(replication)基于虚无假设的独立重复模拟,数据中幸存人数(14+75)、死亡人数(154+387)都已知,总体生存率已知为
=
,个案生(=1)死(=0)二分变量总体方差已知为
=
。注意到两组样本量在独立重复模拟中也不变,这就是研究「比之比」的Fisher Exact 检验的模型设定:从154+14位二等舱乘客、387+75位三等舱乘客中抽14+75位幸存者,2×2 格各行、各列的和在下一轮独立重复模拟中保持不变,可变的随机数是幸存者中来自二等舱的人数,范围取0 ~ 89 (=14+75)。用组合数学的白球黑球语言表述:从154+14枚白球、387+75枚黑球中不放回地随机抽取14+75枚,剩下154+387枚。抽到的白球数0~89服从超几何分布。
(

以上z 检验的验证没有作±0.5的连续性校正。如果作连续校正,只需将弱组的幸存数+0.5,强组幸存数-0.5。原理参见前文正态分布与二项分布近似图示。可以解读为点估计

-
离散取值,对应
p 值最大情形的可能连续取值为
-
。无论是R还是SPSS,
独立性检验都只在2×2设计才提供连续性校正的选项,其它情形都没有连续性校正。
(
  • 二分变量均值正态近似:z 检验与T 检验对比

注意到 R 中的独立样本百分比检验的置信区间与上述验证的结果不尽一致。这里藏着一个重要的推断统计范式盲点:置信区间的计算从来都不用到虚无假设。所以,计算假设检验统计量所用的标准误、计算置信区间所用的标准误在R 的独立样本百分比检验中用了两种不同的算法,只有前者用到虚无假设,后者并不约束两组的均值(以及方差)一致。

rbind

与列联表

独立性检验结果对照,独立样本百分比检验结果提供了更丰富的信息,采用更合理的标准误算法、给出了置信区间。读者可能已经发现,列联表
独立性检验其实计算的是中心极限定理下「两样本均值之差」的
z 检验统计量,平方以后报告为
。既然如此,何不简单粗暴直接采用同样基于中心极限定理的独立样本均值
T 检验?数值验算,可以发现(不依赖方差一致前提的)Welch's T 检验给出了与独立样本百分比检验几乎一致的置信区间。Welch's T 检验的置信区间比(无一致前提下) z 检验的置信区间更可取。不过,在这个例子中二者差异相比连续性校正的差异微不足道。点估计连续性校正对置信半径扩大幅度为
×
rbind

Tz 的置信区间有两处可辨析的差异:

  1. 半径/标准误=统计量临界值,T 随自由度略有变化,在样本量不太小时与z 一致。如果二者不一致,T 的结果总是比z 的结果更可取。
  2. 独立样本百分比检验所采用的二分变量个案
    估算公式是
    ,这个公式因为
    而不准确,
    的无偏估计应当是
    。就这个细节而言,
    T 报告的置信区间结果总是比独立样本百分比检验报告的置信区间结果更可取。对其中二等舱组,可以验证
    无偏估计的结果——
(

Welch's Tz 两种方法的置信区间半径差异略大于(方差一致前提下)Student's Tz两种方法的差异,后者为

×
SD ×
。每组样本量10~50这个范围,(未作连续性校正的)置信区间
z 方法相对于Student's T 方法缩水9.07% ~ 1.73%。连续性校正相应则至少有22.82~10.20%的置信区间涨幅,如果二分数据总体标准差估算值
未达其上限0.5,涨幅相应更大。在连续性校正的背景下,
Tz 之别不再重要。
cbind
  • K 设计的
    独立性检验与方差分析的关系

K =2组的二分变量情形,虚无假设(而非置信区间)的T 检验可以在两组方差一致的前提下检验。如果作二水平被试间因素的ANOVA,得到的

。这与
有清晰的对应关系。由此启发,不难发现
K 组一般情形报告的
其实就是
,只不过是用
=
替代了
。如果总生存率在下一轮独立重复模拟中可以随机变化,独立两组
T z 的结果更准确,独立 K 组直接套用方差分析得到的 F 检验结果也比列联表独立性检验所报告的
检验结果更为可取。如果总生存率在下一轮独立重复模拟中已知不变,则应当采用
z
检验结果。

数值验证如下——

y 

此外还可以推出,K=2组情形列联表独立性检验报告的

等于
=
是Pearson积差相关公式套用到两个二分变量(比如:Survived=="Yes" 与 Class=="2nd" )计算出的相关系数。而
r 所报告的相关系数 T 检验 p 值其实就是独立两组方差一致前提下的均值比较 T 检验 p 值。
  • K 设计的
    独立性检验与MANOVA的对应

如前文所示,3水平称名变量总是可以表述为3个总和约束为1的二分变量。视作3维向量,其均值即各分量总和约束为1的向量,在3维空间的2维三角形截面上近似服从二元正态分布。下图三个灰色箭头的出发点是(男女并计)成年乘客三个舱等的百分比;绿、蓝箭头是男、女性成年乘客幸存个案在三个舱等的百分比;红、紫箭头是男、女性成年乘客死亡个案在三个舱等的百分比。

327cbed2666a6c3a7b84da8b01426bb0.png

N 个三维度向量作被试间K (=4)水平单因素的MANOVA,得到两个维度的特征值,代表各维度模型解释的波动相对于未解释的残差波动之比。MANOVA以残差(各组均值彩色箭头与灰色个案箭头的距离)的尺度推算标准误对各组均值的组间波动作Studentized标准化,而

独立性检验以总的样本均值(直接当做总体均值)推导的三维二分向量波动尺度计算标准误总体参数,对各组均值的组间波动作标准化。在三个水平各自比例固定已知的场合,应当取
独立性检验结果。在三个水平的总比例是随机数的场合,MANOVA比
独立性检验更为可取。

数值验证如下,其中对MANOVA每个分解出的维度都有

是R输出的
矩阵特征值,相当于Cohen's
。对MANOVA文献的符号不熟悉的读者可以参考这个网页。
xc 
  • 2×2 设计的Fisher Exact 检验利弊

检验名自首任Galton讲座教授Karl Pearson,即Karl氏平方统计量。若说Karl是现代统计学创立史的第二人,这段学术史最耀眼的明星无疑是次任Galton讲座教授Ronald Fisher,
F 统计量即Fisher氏统计量。Pearson与Fisher是关系紧张的竞争对手,但他们都师承自达尔文家族。达尔文的表弟、家族第二著名的学术史大师Galton是Pearson的业师;达尔文的儿子L. Darwin也是Fisher情同父子的Mentor。Fisher当选皇家学会院士,给师傅报喜的信函这样开头: I knew you would be glad, and your pleasure is as good to me almost as though my own father were still living.

f227a77745ad2f3324bf959f9adf7431.png
Karl Pearson 与 Francis Galton

6ac9d834267088762970803b9e895719.png
F 统计量的命名者R. Fisher

5a6b98341d51489eb94002f5161f21ce.png
R. Fisher 与 L. Darwin 信函

因为统计学史科普名著《女士品茶》的八卦(题图),替代

独立性检验的「Fisher Exact 检验」的背景故事广为人知,有时被统计课老师在讲授
独立性检验的场合不太得体地援引。
example

Fisher Exact检验的原理与前文二项分布检验的原理几乎完全一致,唯一不同是「有无放回(with/without replacement)」。从4杯(半杯)奶加(半杯)茶+4杯茶加奶中猜四次哪些是茶加奶,如果每猜一杯放回打乱重猜,猜中的次数服从二项分布;每猜一杯拿走不放回继续猜,猜中的次数服从超几何分布,在Excel中的练习公式见题图。比如:猜中三杯(猜错一杯),相当于从4黑4白从1编号到8的球中摸4个球,摸到的球编号有70=ComBin(8,4)种;如果摸到3白1黑,摸到的3白有4=ComBin(4,3)种,1黑有4=ComBin(4,1)种。在虚无假设Odds Ratio (摸中白球数/摸中黑球数)÷(剩下白球数/剩下黑球数)的总体参数=1、备择假设该参数>1的单尾检验下,摸中3次的p 值为Pr(摸中次数≥3)=1- Pr(摸中次数≤3-1)=0.2428571。与二项分布检验类似,Fisher Exact检验不涉及正态近似,对任何样本量都精确成立。而且还可以对2×2情形报告总体参数的置信区间。

在实际的应用场合,无论是否2×2情形,

独立性的虚无假设检验总是可以更好地被Fisher Exact检验的结果替代。如果使用SPSS,2×2情形Fisher Exact检验的
p 值绝大多数情形与
独立性检验结果界面中标注为 Exact Sig. 的
p 值等同,2×2的个别情形也可能出现不一致,2×3情形通常都有出入。这是因为各组合事件的超几何分布概率密度排序与独立性检验
统计量的排序或有出入。前者的概率密度+前者的位序定义了Fisher Exact检验的
p 值即虚无假设下的百分等级,前者的密度+后者的位序定义了
独立性检验Exact Sig.报告的
p 值。2×2情形的例子比如[(5/50)/(50/150)],Fisher Exact 双尾 p 值0.00962302,
独立性检验Exact Sig. 0.01503044。SPSS代码如下——
DATA 

R演示作图代码如下——

# remove(list = ls())

e67b2045e8b0f6f4d4419e044b69041b.png
[(19/36)/(36/164)]比[(5/50)/(50/150)]情形χ2更「极端」、密度却更不「极端」

无论是2×2还是2×3情形,SPSS的列联表独立检验界面都只有p 值结果,并不能得到研究者关心的 2×2 Fisher Exact检验的Odds Ratio置信区间。正如多水平相乘的交互作用常常研究具体某2×2水平的「差之差」,多水平相乘的

独立性检验也可以研究具体的2×2水平「比之比」。如果需要控制一族多个研究的Family-wise一类错误率,用Bonferroni方法简单将
/研究个数,均分给每个2×2 Fisher Exact检验,即可确保全系列各置信区间同时正确的把握≥1-

Fisher Exact检验唯一的弊端可能是:虽然报告了「比之比」置信区间,但不能回答(独立两组)「百分比之差」的范围。「百分比之差」结论的传播效果要优于「比之比」结论,普通读者更习惯于前者的操作化意义,虽然统计应用研究者更经常研究后者。在研究「百分比之差」的场合,假设检验的p 值仍可直接援引Fisher Exact检验的报告,置信区间则采用(连续性校正之后的、不涉及两组一致前提的)独立两均值之差z 检验置信区间,在R 中即prop.test(...) 给出的结果。很惭愧,本文就在这个地方做了一点微小的工作:这种场合(连续性校正之后的)Welch's T 检验置信区间结果几乎一样,相比连续性校正的影响,Welch'sT 检验在z 检验基础上有一点点足够微小的改进。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值