特征选择-卡方检测

特征选择

卡方检测

卡方检测的思想是通过观察实际值与理论值之间的偏差来确定假设是否成立。

x2(t,c)=i=1n(xiE)2E

其中 xi 代表 xi 的时间观察值,理论值是E,也就是数学期望。
公式除以E是为了避免不同观察值与不同期望之间产生的偏差因E的不同而差别太大,所以除以E以消除这种弊端。

对应于特征选择,若特征 xi 与类别 cj 之间的相关联性越大,那么假设的卡方检验值就越大,说明实际与假设存在的偏差越大。
通常设定假设为:特征 xi 与类别 cj 之间相互独立。

例如:
在众多的新闻信息中,假设“篮球”词与“体育”类别之间相互独立(显然不可能)。
现有样本数量N,其中“体育”类新闻样本M。

特征选择属于“体育”不属于”体育”
包含“篮球”ABA+B
不包含“篮球”CDC+D
A+C=NB+D=N-MN

其中样本观察得到在体育新闻中包含“篮球”的新闻有A条,不包含“篮球”的新闻有C条;在非体育类新闻中包含“篮球”的新闻有B条,不包含“篮球”的新闻有D条。
由此可以知道包含“篮球”的新闻一共出现A+B次
因为假设篮球与体育相互独立
所以篮球出现的概率

P()=A+BN

那么理论上体育类新闻中出现篮球的次数为:
N()=A+CA+BN=E11

新闻总数乘以出现概率
实际在体育新闻中出现篮球的次数是A
到这里就可以计算实际与理论的偏差了,因为实际的次数与理论的次数一定会出现偏差,当偏差非常小的时候,我们可以认为这是由于测量手段而引起的误差,当偏差较大时,则认为假设存在问题。
D11=(AE11)2E11

其中 D11 代表体育类新闻中包含“篮球”的实际与理论存在的误差,下标11对应表格位置。
同样的道理,对于表格中实际统计B,C,D,同样存在实际与理论的偏差,故
N()=A+C1A+BN=E21

N()=B+DA+BN=E12

N()=B+D1A+BN=E22

那么同上 D11 类似,可以计算出 D21 , D12 , D22

由此可以得出篮球与体育的卡方值:

X2()=D11+D21+D12+D22

化简后得到:
X2()=N(ADBC)2(A+C)(A+B)(B+D)(C+D)

由此就计算得到了篮球次与体育新闻之间的关联性强度,那么在选择与体育相关的特征时,只需对卡方值进行排序,选择前n个(n人为规定)就OK了。

如果公式看的头大,那么再上一个百度百科的例子。
首先:

X2=i=1k(finpi)2npi

其中 fi 代表出现次数即频率,n代表目标样本的大小, pi 代表出现概率。
上例子:判断性别与化妆的关系

特征
化妆15(55)95(55)110
不化妆85(45)5(45)90
100200

那么化妆的概率 P()=110200
那么化妆男理论数量 N()=100P()=55
对应可以求出不化妆男,化妆女,不化妆女的理论数量,即括号内的数量。
下面就可以求出化妆与性别卡方值啦

X2()=i=1k(finpi)2npi=(9555)255+(1555)255+(8545)245+(545)245=129.3

通过查表得到P-value,判断偏差是否在容忍范围内,发现假设错误率在99.9%,即独立假设不正确,两者非常相关。

参考:
1. http://blog.csdn.net/idatamining/article/details/8564981
2. http://baike.baidu.com/link?url=FIrJByL3-XtnOMVmf2bImbzBFtP2F2IApr9k9RK4iynrFtazR57OcnCYnU7C72Jxe4akZEJLPPDGkBLiqg3gi01yWMhNUD43RKQ9BMQ7KLZa3zFj3P1cjkCGXipx4sZV

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值