《特征工程三部曲》之一:数据处理

本文是特征工程三部曲的第一部分,重点讲解数据处理。内容涵盖量纲不一的处理(0-1标准化、Z标准化、Normalizer归一化)、虚拟变量的创建以及缺失值填充的策略。通过实例展示了如何使用sklearn进行数据标准化,并探讨了离散特征编码的方法。
摘要由CSDN通过智能技术生成

要理解特征工程,首先要理解数据(Data)和特征(Feature)的概念

概念

  • 特征工程(Feature Engineering)

    • 其本质上是一项工程活动,它目的是最大限度地从原始数据中提取特征以供算法和模型使用。

特征工程在数据挖掘中有举足轻重的位置
数据领域一致认为:数据和特征决定了机器学习的上限,而模型和算法只能逼近这个上限而已。

  • 特征工程重要性:

    • 特征越好,灵活性越强;

    • 特征越好,模型越简单;

    • 特征越好,性能越出色;

好特征即使使用一般的模型,也能得到很好的效果!好特征的灵活性在于它允许你可以选择不复杂的模型,同时,运行速度也更快,也更容易理解和维护。

好的特征,即使参数不是最优解,模型性能也能表现很好,因此,不需要太多时间去寻找最优参数,大大的降低了模型的复杂度,使模型趋向简单。

模型的性能包括模型的效果,执行的效率及模型的可解释性。特征工程的最终目的就是提升模型的性能。

数据科学家通过总结和归纳,把特征工程划分为以下三个部分:

  • 特征工程包括:

    • 数据处理

    • 特征选择

    • 维度压缩

数据处理

数据处理的常用技巧

  • 量纲不一

  • 虚拟变量

  • 缺失值填充

数据处理——量纲不一

  • 量纲:就是单位,特征的单位不一致,特征就不能放在一起比较。

  • 解决量纲不一致的方法:标准化

    • 0-1标准化

    • Z标准化

    • Normalizer归一化

0-1标准化

是对原始数据进行线性变换,将特征值映射成区间为[0,1]的标准值中:

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值