特征预处理,特征选择

本文介绍了特征预处理的重要性,包括统一量纲、标准化、区间放缩、归一化、定量特征二值化和定性特征哑编码。讨论了如何处理缺失值和数据变换,以适应不同模型的需求。在特征选择部分,讲解了过滤法、包装法和嵌入法,推荐了方差选择、相关系数、卡方检验和互信息法等方法,并提到了递归特征消除和基于惩罚项的特征选择策略。降维方法则为后续深入学习内容。
摘要由CSDN通过智能技术生成

特征预处理

  1. 统一量纲
    特征规格不一样,不能放在一起比较。(主要看模型,比如树模型就不太需要,而计算距离之类的模型,或者神经网络就需要),主要有标准化,区间放缩,归一化。

标准化

##标准化,均值为0,方差为1
from sklearn.preprocessing import StandardScaler
 
#标准化,返回值为标准化后的数据
StandardScaler().fit_transform(iris.data)

区间放缩

from sklearn.preprocessing import MinMaxScaler

#区间缩放,返回值为缩放到[0, 1]区间的数据
MinMaxScaler().fit_transform(iris.data)

归一化

from sklearn.preprocessing import Normalizer

#归一化,返回值为归一化后的数据
Normalizer().fit_transform(iris.data)
  1. 定量特征二值化
    定量特征二值化的核心在于设定一个阈值,大于阈值的赋值为1,小于等于阈值的赋值为0。
from sklearn.preprocessing import Binarizer

#二值化,阈值设置为3,返回值为二值化后的数据
Binarizer(threshold=3).fit_transform(iris.data)
  1. 对定性特征哑编码
    某些机器学习算法和模型只能接受定量特征
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值