【统计学笔记】第九章 分类数据分析

各种统计量检验的决策准则
各种假设检验的假设的建立

第九章 分类数据分析

9.1 分类数据和 χ 2 \chi^2 χ2统计量

9.1.1 分类数据

  • 调查结果虽然用数值表示,但不同数值描述的是调查对象的不同特征。分类数据汇总的结果表现为频数。
  • χ 2 \chi^2 χ2检验是对分类数据的频数进行分析的统计方法。

9.1.2 χ 2 \chi^2 χ2统计量

χ 2 = ∑ ( f o − f e ) 2 f e \chi^2 = \sum \frac{(f_o - f_e)^2}{f_e} χ2=fe(fofe)2

  • 观察值频数( f o : o b s e r v e d    f r e q u e n c e f_o:observed \; frequence foobservedfrequence)
  • 期望值频数( f e : e x c e p t e d    f r e q u e n c e f_e:excepted \; frequence feexceptedfrequence)
  • χ 2 \chi^2 χ2统计量描述 f 0 f_0 f0 f e f_e fe 的接近程度
    • ∣ f o − f e ∣ |f_o - f_e| fofe越小, χ 2 \chi^2 χ2就越小
    • ∣ f o − f e ∣ |f_o - f_e| fofe越大, χ 2 \chi^2 χ2就越大

χ 2 \chi^2 χ2检验正是通过将 χ 2 \chi^2 χ2的值与临界值比较,做出是否拒绝原假设的决策。

9.2 拟合优度检验

拟合优度检验是对一个分类变量的检验
χ 2 = ∑ ( f o − f e ) 2 f e ∼ χ 2 ( n − 1 ) \chi^2 = \sum \frac{(f_o - f_e)^2}{f_e} \sim \chi^2(n-1) χ2=fe(fofe)2χ2(n1)

9.3 列联分析:独立性检验

独立性检验又是对两个分类变量的检验,分析过程通过列联表的方式呈现,称为列联分析。

9.3.1 列联表

在这里插入图片描述

  1. 由两个以上的变量进行交叉分类的频数分布表
  2. 行变量的类别用 r ( r o w ) r(row) r(row) 表示, r i r_i ri表示第 i i i 个类别
  3. 列变量的类别用 c ( c o l u m n ) c(column) c(column) 表示, c j c_j cj 表示第 j j j 个类别
  4. 每种组合的观察频数(实际频数)用 f i j f_{ij} fij表示
  5. 表中列出了行变量和列变量的所有可能的组合,所以称为列联表
  6. 一个 r r r c c c 列的列联表称为 r × c r \times c r×c 列联表
  • 行百分比:行的每一个观察频数除以相应的行合计数 ( f i j / r i ) (f_{ij} / r_i) fij/ri
  • 列百分比:列的每一个观察频数除以相应的列合计数 ( f i j / c j ) ( f_{ij} / c_j ) fij/cj
  • 总百分比:每一个观察值除以观察值的总个数 ( f i j / n ) ( f_{ij} / n ) fij/n
  • 期望频数 e i j = r i c j n e_{ij} = \frac{r_ic_j}{n} eij=nricj

9.3.2 独立性检验

χ 2 \chi^2 χ2统计量用于检验列联表中变量之间是否存在显著性差异,或者用于检验变量之间是否独立。
χ 2 = ∑ i = 1 r ∑ j = 1 c ( f i j − e i j ) 2 e i j ∼ χ 2 ( ( r − 1 ) × ( c − 1 ) ) \chi^2 = \sum_{i=1}^r\sum_{j=1}^c \frac{(f_{ij} - e_{ij})^2}{e_{ij}} \sim \chi^2((r-1)\times(c-1)) χ2=i=1rj=1ceij(fijeij)2χ2((r1)×(c1))
在这里插入图片描述

9.4 列联表中的相关测量(三个相关系数 ϕ 、 c 、 V \phi、c、V ϕcV

9.4.1 ϕ \phi ϕ相关系数

  1. 测度2×2列联表中数据相关程度的一个量
  2. 对于2×2 列联表, ϕ \phi ϕ系数的值在0~1之间
  3. ϕ 相关系数计算公式为:
    ϕ = χ 2 / n \phi = \sqrt{\chi^2/n} ϕ=χ2/n
  4. 2x2列联表
    在这里插入图片描述
    故有: ϕ = χ 2 n = a d − b c ( a + b ) ( c + d ) ( a + c ) ( b + d ) \qquad \phi = \sqrt{\frac{\chi^2}{n}} \quad\quad\qquad\qquad\qquad\qquad\qquad\\ \quad \\ \quad = \sqrt{\frac{ad-bc}{(a+b)(c+d)(a+c)(b+d)}} ϕ=nχ2 =(a+b)(c+d)(a+c)(b+d)adbc
    • ad 等于bc , ϕ \phi ϕ = 0,表明变量X 与Y 之间独立
    • 若b=0 ,c=0,或a=0 ,d=0,意味着各观察频
      数全部落在对角线上,此时 ∣ ϕ ∣ |\phi| ϕ =1,表明变量X
      与Y 之间完全相关
  5. 列联表中变量的位置可以互换,|phi|的符号没有
    实际意义,故取绝对值即可

9.4.2 列联相关系数c

  • 列联相关系数( c : c o n t i n g e n c y c:contingency ccontingency):又称列联系数,简称c系数,用于测度大于2×2列联表中数据的相关程度,计算公式为:
    c = χ 2 χ 2 + n c = \sqrt{\frac{\chi^2}{\chi^2 + n}} c=χ2+nχ2
    • c c c 的取值范围是 0 ≤ c < 1 0 ≤ c < 1 0c<1
    • c = 0 c = 0 c=0 表明列联表中的两个变量独立
    • c c c 的数值大小取决于列联表的行数和列数,并随行数和列数的增大而增大。2×2列联表完全相关时,c=0.7071;3×3列联表完全相关时,c=0.8165;4×4列联表完全相关时,c=0.87.

9.4.3 V相关系数

  • V相关系数:
    V = χ 2 n × m i n [ ( r − 1 ) ( c − 1 ) ] V = \sqrt{\frac{\chi^2}{n\times min[(r-1)(c-1)]}} V=n×min[(r1)(c1)]χ2
  • V 的取值范围是 0 ≤ V ≤ 1 0≤V≤1 0V1
  • V = 0 V = 0 V=0表明列联表中的两个变量独立
  • V = 1 V = 1 V=1表明列联表中的两个变量完全相关
  • 不同行和列的列联表计算的列联系数不便于比较
  • 当列联表中有一维为2, m i n [ ( r − 1 ) , ( c − 1 ) ] = 1 min[(r-1),(c-1)]=1 min[(r1),(c1)]=1,此时 V = ϕ V=\phi V=ϕ

9.4.4 数值分析

ϕ 、 C 、 V ϕ、C、V ϕCV 的比较

  • 同一个列联表, ϕ 、 C 、 V ϕ、C、V ϕCV 的结果会不同
  • 不同的列联表, ϕ 、 C 、 V ϕ、C、V ϕCV 的结果也不同
  • 在对不同列联表变量之间的相关程度进行比较时,不同列联表中的行与行、列与列的个数要相同,并且采用同一种系数
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值