python数据挖掘--特征工程篇（附代码）

最新推荐文章于 2024-05-23 02:48:48 发布

睡醒了的小码媛

最新推荐文章于 2024-05-23 02:48:48 发布

阅读量934

点赞数

分类专栏：机器学习 python数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42152164/article/details/91125575

版权

记录数据挖掘路上遇到的常用特征工程方法和技巧（附代码），方便自己，方便他人，持续更新。

1.哑编码

对某一列数据进行pandas自带的（定性数据哑编码，定量数据二值化），并附上名字

pd.get_dummies(all['MSSubClass'], prefix='MSSubClass')

2.卡方特征选择

从已有的特征中选择出影响目标值最大的特征属性

常用方法：{ 分类：F统计量、卡方系数，互信息mutual_info_classif

{ 连续：皮尔逊相关系数 F统计量互信息mutual_info_classif

ch2 = SelectKBest(chi2,k=10)

X_train = ch2.fit_transform(X_train, Y_train)

X_test = ch2.transform(X_test)

print(ch2.get_support(indices=True))

最低0.47元/天解锁文章

睡醒了的小码媛

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
python数据挖掘--特征工程篇（附代码）

记录数据挖掘路上遇到的常用特征工程方法和技巧（附代码），方便自己，方便他人，持续更新。1.哑编码对某一列数据进行pandas自带的（定性数据哑编码，定量数据二值化），并附上名字pd.get_dummies(all['MSSubClass'], prefix='MSSubClass')2.卡方特征选择从已有的特征中选择出影响目标值最大的特征属性常用方法：{ 分类：F统计量、卡...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。