【阿里云天池大赛赛题解析 机器学习篇】卡方检验

        卡方检验针对分类变量,是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。

使用iris数据集,在sklearn库中使用卡方检验筛选与目标变量相关的特征

1、导入包

from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2

2、卡方检验iris数据集选取2个最佳特征

iris = load_iris()  # 载入iris数据
X, y = iris.data, iris.target  # iris.data是特征数据,iris.target是标签数据
model = SelectKBest(chi2, k=2)  # 使用卡方检验选择k个最佳特征
X_new = model.fit_transform(X, y)  # 选择k个最佳特征,作为新的X

SelectKBest.fit_transform方法先fit后transform,选出卡方检验后的2个最佳特征作为新的array。

3、输出观察结果

print(iris.data)
print(iris.target)
—————————————————————————————————————————————————————————————————————————————————————————
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值