特征选择-处理缺失值-处理不平衡的数据-处理异常值-分档-编码-特征缩放

本文介绍了机器学习特征工程的7个关键步骤:特征选择、处理缺失值、处理不平衡数据、处理异常值、分档、编码和特征缩放。在特征选择中,使用相关矩阵、单变量选择和ExtraTreesClassifier方法来挑选相关特征。处理缺失值可通过填充或删除。不平衡数据可以通过欠采样、过采样或SMOTE技术改善。异常值的处理涉及识别和替换。分档、编码和特征缩放则分别用于连续数据的离散化、分类变量的转换和特征尺度的一致化,以提升模型性能。
摘要由CSDN通过智能技术生成

特征工程的主要目标是从算法中获得最好的结果,今天小普从以下7个步骤,让大家了解机器学习算法特征工程的分步过程,如果你觉得有帮助的话,记得给小普点赞支持一下吧,小普又充满了动力~

  1. 特征选择
  2. 处理缺失值
  3. 处理不平衡的数据
  4. 处理异常值
  5. 分档
  6. 编码
  7. 特征缩放

1.特征选择

特征选择是对所需的独立特征的选择。选择与依赖特征有更多关系的独立特征将有助于建立一个好的模型。一般做好特征选择有以下几种方法:

2.1 与热图的相关矩阵

热图是 2D(二维)数据的图形表示。每个数据值表示在一个矩阵中。

我们首先,绘制所有独立特征和依赖特征之间的配对图。它将给出依赖和独立特征之间的关系。独立特征和依赖特征之间的关系小于 0.2 则选择该独立特征来构建模型。

2.2 单变量选择

在这种情况下,可以使用统计测试来选择与依赖特征具有最强关系的独立特征。SelectKBest方法可以与一套不同的统计测试一起使用,以选择特定数量的特征。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值