第九章 分类数据分析
9.1 分类数据和 χ 2 \chi^2 χ2统计量
9.1.1 分类数据
- 调查结果虽然用数值表示,但不同数值描述的是调查对象的不同特征。分类数据汇总的结果表现为频数。
- χ 2 \chi^2 χ2检验是对分类数据的频数进行分析的统计方法。
9.1.2 χ 2 \chi^2 χ2统计量
χ 2 = ∑ ( f o − f e ) 2 f e \chi^2 = \sum \frac{(f_o - f_e)^2}{f_e} χ2=∑fe(fo−fe)2
- 观察值频数( f o : o b s e r v e d f r e q u e n c e f_o:observed \; frequence fo:observedfrequence)
- 期望值频数( f e : e x c e p t e d f r e q u e n c e f_e:excepted \; frequence fe:exceptedfrequence)
-
χ
2
\chi^2
χ2统计量描述
f
0
f_0
f0 与
f
e
f_e
fe 的接近程度
- ∣ f o − f e ∣ |f_o - f_e| ∣fo−fe∣越小, χ 2 \chi^2 χ2就越小
- ∣ f o − f e ∣ |f_o - f_e| ∣fo−fe∣越大, χ 2 \chi^2 χ2就越大
χ 2 \chi^2 χ2检验正是通过将 χ 2 \chi^2 χ2的值与临界值比较,做出是否拒绝原假设的决策。
9.2 拟合优度检验
拟合优度检验是对一个分类变量的检验
χ
2
=
∑
(
f
o
−
f
e
)
2
f
e
∼
χ
2
(
n
−
1
)
\chi^2 = \sum \frac{(f_o - f_e)^2}{f_e} \sim \chi^2(n-1)
χ2=∑fe(fo−fe)2∼χ2(n−1)
9.3 列联分析:独立性检验
独立性检验又是对两个分类变量的检验,分析过程通过列联表的方式呈现,称为列联分析。
9.3.1 列联表
- 由两个以上的变量进行交叉分类的频数分布表
- 行变量的类别用 r ( r o w ) r(row) r(row) 表示, r i r_i ri表示第 i i i 个类别
- 列变量的类别用 c ( c o l u m n ) c(column) c(column) 表示, c j c_j cj 表示第 j j j 个类别
- 每种组合的观察频数(实际频数)用 f i j f_{ij} fij表示
- 表中列出了行变量和列变量的所有可能的组合,所以称为列联表
- 一个 r r r 行 c c c 列的列联表称为 r × c r \times c r×c 列联表
- 行百分比:行的每一个观察频数除以相应的行合计数 ( f i j / r i ) (f_{ij} / r_i) (fij/ri)
- 列百分比:列的每一个观察频数除以相应的列合计数 ( f i j / c j ) ( f_{ij} / c_j ) (fij/cj)
- 总百分比:每一个观察值除以观察值的总个数 ( f i j / n ) ( f_{ij} / n ) (fij/n)
- 期望频数 e i j = r i c j n e_{ij} = \frac{r_ic_j}{n} eij=nricj
9.3.2 独立性检验
χ
2
\chi^2
χ2统计量用于检验列联表中变量之间是否存在显著性差异,或者用于检验变量之间是否独立。
χ
2
=
∑
i
=
1
r
∑
j
=
1
c
(
f
i
j
−
e
i
j
)
2
e
i
j
∼
χ
2
(
(
r
−
1
)
×
(
c
−
1
)
)
\chi^2 = \sum_{i=1}^r\sum_{j=1}^c \frac{(f_{ij} - e_{ij})^2}{e_{ij}} \sim \chi^2((r-1)\times(c-1))
χ2=i=1∑rj=1∑ceij(fij−eij)2∼χ2((r−1)×(c−1))
9.4 列联表中的相关测量(三个相关系数 ϕ 、 c 、 V \phi、c、V ϕ、c、V)
9.4.1 ϕ \phi ϕ相关系数
- 测度2×2列联表中数据相关程度的一个量
- 对于2×2 列联表, ϕ \phi ϕ系数的值在0~1之间
- ϕ 相关系数计算公式为:
ϕ = χ 2 / n \phi = \sqrt{\chi^2/n} ϕ=χ2/n - 2x2列联表
故有: ϕ = χ 2 n = a d − b c ( a + b ) ( c + d ) ( a + c ) ( b + d ) \qquad \phi = \sqrt{\frac{\chi^2}{n}} \quad\quad\qquad\qquad\qquad\qquad\qquad\\ \quad \\ \quad = \sqrt{\frac{ad-bc}{(a+b)(c+d)(a+c)(b+d)}} ϕ=nχ2=(a+b)(c+d)(a+c)(b+d)ad−bc- ad 等于bc , ϕ \phi ϕ = 0,表明变量X 与Y 之间独立
- 若b=0 ,c=0,或a=0 ,d=0,意味着各观察频
数全部落在对角线上,此时 ∣ ϕ ∣ |\phi| ∣ϕ∣ =1,表明变量X
与Y 之间完全相关
- 列联表中变量的位置可以互换,|phi|的符号没有
实际意义,故取绝对值即可
9.4.2 列联相关系数c
- 列联相关系数(
c
:
c
o
n
t
i
n
g
e
n
c
y
c:contingency
c:contingency):又称列联系数,简称c系数,用于测度大于2×2列联表中数据的相关程度,计算公式为:
c = χ 2 χ 2 + n c = \sqrt{\frac{\chi^2}{\chi^2 + n}} c=χ2+nχ2- c c c 的取值范围是 0 ≤ c < 1 0 ≤ c < 1 0≤c<1
- c = 0 c = 0 c=0 表明列联表中的两个变量独立
- c c c 的数值大小取决于列联表的行数和列数,并随行数和列数的增大而增大。2×2列联表完全相关时,c=0.7071;3×3列联表完全相关时,c=0.8165;4×4列联表完全相关时,c=0.87.
9.4.3 V相关系数
- V相关系数:
V = χ 2 n × m i n [ ( r − 1 ) ( c − 1 ) ] V = \sqrt{\frac{\chi^2}{n\times min[(r-1)(c-1)]}} V=n×min[(r−1)(c−1)]χ2 - V 的取值范围是 0 ≤ V ≤ 1 0≤V≤1 0≤V≤1
- V = 0 V = 0 V=0表明列联表中的两个变量独立
- V = 1 V = 1 V=1表明列联表中的两个变量完全相关
- 不同行和列的列联表计算的列联系数不便于比较
- 当列联表中有一维为2, m i n [ ( r − 1 ) , ( c − 1 ) ] = 1 min[(r-1),(c-1)]=1 min[(r−1),(c−1)]=1,此时 V = ϕ V=\phi V=ϕ
9.4.4 数值分析
ϕ 、 C 、 V ϕ、C、V ϕ、C、V 的比较
- 同一个列联表, ϕ 、 C 、 V ϕ、C、V ϕ、C、V 的结果会不同
- 不同的列联表, ϕ 、 C 、 V ϕ、C、V ϕ、C、V 的结果也不同
- 在对不同列联表变量之间的相关程度进行比较时,不同列联表中的行与行、列与列的个数要相同,并且采用同一种系数