特征选择
卡方检测
卡方检测的思想是通过观察实际值与理论值之间的偏差来确定假设是否成立。
其中 xi 代表 xi 的时间观察值,理论值是E,也就是数学期望。
公式除以E是为了避免不同观察值与不同期望之间产生的偏差因E的不同而差别太大,所以除以E以消除这种弊端。
对应于特征选择,若特征
xi
与类别
cj
之间的相关联性越大,那么假设的卡方检验值就越大,说明实际与假设存在的偏差越大。
通常设定假设为:特征
xi
与类别
cj
之间相互独立。
例如:
在众多的新闻信息中,假设“篮球”词与“体育”类别之间相互独立(显然不可能)。
现有样本数量N,其中“体育”类新闻样本M。
则
特征选择 | 属于“体育” | 不属于”体育” | |
---|---|---|---|
包含“篮球” | A | B | A+B |
不包含“篮球” | C | D | C+D |
A+C=N | B+D=N-M | N |
其中样本观察得到在体育新闻中包含“篮球”的新闻有A条,不包含“篮球”的新闻有C条;在非体育类新闻中包含“篮球”的新闻有B条,不包含“篮球”的新闻有D条。
由此可以知道包含“篮球”的新闻一共出现A+B次
因为假设篮球与体育相互独立
所以篮球出现的概率
那么理论上体育类新闻中出现篮球的次数为:
新闻总数乘以出现概率
实际在体育新闻中出现篮球的次数是A
到这里就可以计算实际与理论的偏差了,因为实际的次数与理论的次数一定会出现偏差,当偏差非常小的时候,我们可以认为这是由于测量手段而引起的误差,当偏差较大时,则认为假设存在问题。
其中 D11 代表体育类新闻中包含“篮球”的实际与理论存在的误差,下标11对应表格位置。
同样的道理,对于表格中实际统计B,C,D,同样存在实际与理论的偏差,故
那么同上 D11 类似,可以计算出 D21 , D12 , D22 。
由此可以得出篮球与体育的卡方值:
化简后得到:
由此就计算得到了篮球次与体育新闻之间的关联性强度,那么在选择与体育相关的特征时,只需对卡方值进行排序,选择前n个(n人为规定)就OK了。
如果公式看的头大,那么再上一个百度百科的例子。
首先:
其中 fi 代表出现次数即频率,n代表目标样本的大小, pi 代表出现概率。
上例子:判断性别与化妆的关系
特征 | 男 | 女 | |
---|---|---|---|
化妆 | 15(55) | 95(55) | 110 |
不化妆 | 85(45) | 5(45) | 90 |
100 | 200 |
那么化妆的概率
P(化妆)=110200
那么化妆男理论数量
N(化妆男)=100∗P(化妆)=55
对应可以求出不化妆男,化妆女,不化妆女的理论数量,即括号内的数量。
下面就可以求出化妆与性别卡方值啦
通过查表得到P-value,判断偏差是否在容忍范围内,发现假设错误率在99.9%,即独立假设不正确,两者非常相关。
参考:
1. http://blog.csdn.net/idatamining/article/details/8564981
2. http://baike.baidu.com/link?url=FIrJByL3-XtnOMVmf2bImbzBFtP2F2IApr9k9RK4iynrFtazR57OcnCYnU7C72Jxe4akZEJLPPDGkBLiqg3gi01yWMhNUD43RKQ9BMQ7KLZa3zFj3P1cjkCGXipx4sZV