特征选择-卡方检测

最新推荐文章于 2022-07-04 10:16:39 发布

江中舟

最新推荐文章于 2022-07-04 10:16:39 发布

阅读量2.4k

点赞数 1

分类专栏：特征选择卡方检测文章标签：特征选择卡方检测

本文链接：https://blog.csdn.net/qfnu_cjt_wl/article/details/53408476

版权

特征选择同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

卡方检测

1 篇文章 0 订阅

订阅专栏

特征选择

卡方检测

卡方检测的思想是通过观察实际值与理论值之间的偏差来确定假设是否成立。

x 2 (t, c) = \sum i = 1 n ( x i - E ) 2 E

$x^{2}(t,c)=\sum _{i=1}^{n}\frac{(x_{i}-E)^{2}}{E}$
其中

xi $x_i$ 代表

xi $x_i$ 的时间观察值，理论值是E，也就是数学期望。
公式除以E是为了避免不同观察值与不同期望之间产生的偏差因E的不同而差别太大，所以除以E以消除这种弊端。

对应于特征选择，若特征 $x_i$ 与类别 $c_j$ 之间的相关联性越大，那么假设的卡方检验值就越大，说明实际与假设存在的偏差越大。
通常设定假设为：特征 $x_i$ 与类别 $c_j$ 之间相互独立。

例如：
在众多的新闻信息中，假设“篮球”词与“体育”类别之间相互独立（显然不可能）。
现有样本数量N，其中“体育”类新闻样本M。
则

特征选择	属于“体育”	不属于”体育”
包含“篮球”	A	B	A+B
不包含“篮球”	C	D	C+D
	A+C=N	B+D=N-M	N

其中样本观察得到在体育新闻中包含“篮球”的新闻有A条，不包含“篮球”的新闻有C条；在非体育类新闻中包含“篮球”的新闻有B条，不包含“篮球”的新闻有D条。
由此可以知道包含“篮球”的新闻一共出现A+B次
因为假设篮球与体育相互独立
所以篮球出现的概率

P (篮 球) = A + B N

$P(篮球)=\frac{A+B}{N}$
那么理论上体育类新闻中出现篮球的次数为：

N (出 现 篮 球 ， 体 育) = （ A + C ） * A + B N = E 11

$N(出现篮球，体育)=（A+C）*\frac{A+B}{N}=E_{11}$
新闻总数乘以出现概率
实际在体育新闻中出现篮球的次数是A
到这里就可以计算实际与理论的偏差了，因为实际的次数与理论的次数一定会出现偏差，当偏差非常小的时候，我们可以认为这是由于测量手段而引起的误差，当偏差较大时，则认为假设存在问题。

D 11 = ( A - E 11 ) 2 E 11

$\begin{equation} D_{11}=\frac{(A-E_{11})^2}{E_{11}} \end{equation}$
其中

D11 $D_{11}$ 代表体育类新闻中包含“篮球”的实际与理论存在的误差，下标11对应表格位置。
同样的道理，对于表格中实际统计B,C,D，同样存在实际与理论的偏差，故

N (不 出 现 篮 球 ， 体 育) = （ A + C ） * （ 1 - A + B N ） = E 21

$N(不出现篮球，体育)=（A+C）*（1-\frac{A+B}{N}）=E_{21}$

N (出 现 篮 球 ， 非 体 育) = （ B + D ） * （ A + B N ） = E 12

$N(出现篮球，非体育)=（B+D）*（\frac{A+B}{N}）=E_{12}$

N (不 出 现 篮 球 ， 非 体 育) = （ B + D ） * （ 1 - A + B N ） = E 22

$N(不出现篮球，非体育)=（B+D）*（1-\frac{A+B}{N}）=E_{22}$
那么同上

D11 $D_{11}$ 类似，可以计算出

D21 $D_{21}$ ,

D12 $D_{12}$ ,

D22 $D_{22}$ 。

由此可以得出篮球与体育的卡方值：

X 2 (篮 球 ， 体 育) = D 11 + D 21 + D 12 + D 22

$X^2(篮球，体育)=D_{11}+D_{21}+D_{12}+D_{22}$
化简后得到：

X 2 (篮 球 ， 体 育) = N ( A D - B C ) 2 ( A + C ) ( A + B ) ( B + D ) ( C + D )

$X^2(篮球，体育)=\frac{N(AD-BC)^2}{(A+C)(A+B)(B+D)(C+D)}$

由此就计算得到了篮球次与体育新闻之间的关联性强度，那么在选择与体育相关的特征时，只需对卡方值进行排序，选择前n个（n人为规定）就OK了。

如果公式看的头大，那么再上一个百度百科的例子。
首先：

X 2 = \sum i = 1 k ( f i - n p i ) 2 n p i

$X^2=\sum_{i=1}^{k}\frac{(f_i-np_i)^2}{np_i}$
其中

fi $f_i$ 代表出现次数即频率，n代表目标样本的大小，

pi $p_i$ 代表出现概率。
上例子：判断性别与化妆的关系

特征	男	女
化妆	15（55）	95（55）	110
不化妆	85（45）	5（45）	90
	100	200

那么化妆的概率 $P(化妆)=\frac{110}{200}$
那么化妆男理论数量 $N(化妆男)=100*P(化妆)=55$
对应可以求出不化妆男，化妆女，不化妆女的理论数量，即括号内的数量。
下面就可以求出化妆与性别卡方值啦

X 2 (化 妆 ， 性 别) = \sum i = 1 k ( f i - n p i ) 2 n p i = ( 95 - 55 ) 2 55 + ( 15 - 55 ) 2 55 + ( 85 - 45 ) 2 45 + ( 5 - 45 ) 2 45 = 129.3

$X^2(化妆，性别)=\sum_{i=1}^k\frac{(f_i-np_i)^2}{np_i}=\frac{(95-55)^2}{55}+\frac{(15-55)^2}{55}+\frac{(85-45)^2}{45}+\frac{(5-45)^2}{45}=129.3$
通过查表得到P-value，判断偏差是否在容忍范围内，发现假设错误率在99.9%，即独立假设不正确，两者非常相关。

参考：
1. http://blog.csdn.net/idatamining/article/details/8564981
2. http://baike.baidu.com/link?url=FIrJByL3-XtnOMVmf2bImbzBFtP2F2IApr9k9RK4iynrFtazR57OcnCYnU7C72Jxe4akZEJLPPDGkBLiqg3gi01yWMhNUD43RKQ9BMQ7KLZa3zFj3P1cjkCGXipx4sZV

江中舟

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
特征选择-卡方检测

特征选择卡方检测卡方检测的思想是通过观察实际值与理论值之间的偏差来确定假设是否成立。 x2(t,c)=∑i=1n(xi−E)2Ex^{2}(t,c)=\sum _{i=1}^{n}\frac{(x_{i}-E)^{2}}{E} 其中xix_i代表xix_i的时间观察值，理论值是E，也就是数学期望。公式除以E是为了避免不同观察值与不同期望之间产生的偏差因E的不同而差别太大，所以除以E以消除这种
复制链接

扫一扫