特征选择算法之 chisquare 算法

最新推荐文章于 2024-01-11 11:38:20 发布

YoYoDelphine

最新推荐文章于 2024-01-11 11:38:20 发布

阅读量8.3k

点赞数 2

分类专栏：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/YoYoDelphine/article/details/52149138

版权

本文介绍了卡方（Chi-Squared）特征选择算法，用于评估特征与目标变量的相关性。通过计算卡方值，可以确定特征的重要性。公式为X^2 = ∑ ((YA - YB)^2 / YB)，其中YA是实际值，YB是假设无关时的理想值。当卡方值较大，表示特征与目标变量的相关性较强。在数据挖掘工具如Weka中，有内置的ChiSquaredAttributeEval函数来实现这一检验。

摘要由CSDN通过智能技术生成

chisquare特征选择算法：

通过计算各个特征的卡方值，进行排序后得到。

步骤如下： 1. 假设该特征与目标特征无关。 2. 计算卡方值，若卡方值较小，则相关性较小；若较大，则相关性较大。

每个特征的卡方值计算应如下：

X^2 = ∑ (（YA - YB）^ 2 / YB)

其中，YA是每个样本中，YA的实际值，而YB为理想值,即假设无关成立时，理想的值。

由于假设该特征与目标特征无关，则应当在该特征的范围上，目标特征值均匀分布。

例如：

假设X 有三种分类，XA,XB,XC. Y 有两种分类， Y1，Y2

则对于卡方值计算有

	Y1	Y2	合计
XA	a	b	a+b
XB	c	d	c+d
XC	e	f	e+f
合计	a+c+e	b+d+f

由于X属性与Y属性无关，则有， (a+b) * (a+c+

最低0.47元/天解锁文章

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。