特征增强---清洗数据

使用数学变换增强给定的数据,但是并不删除或插入新的属性。
对非结构化数据进行结构化。
数据填充一一在原先没有数据的位置填充(缺失)数据。
数据归一化:
标准化(也称为z 分数标准化);
极差法(也称为min-max 标准化);
Ll和L2 正则化(将数据投影到不同的空间,很有趣)。

可以判断数据是否有结构。也就是说,我们的数据是否是漂亮的表格格式。如果不是,这一章将提供将数据表格化的工具。在创建机器学习流水线时,这一步必不可少。
数据填充是个特别有趣的话题。在数据中填充缺失的部分比昕起来要困难得多。
从最简单的方式(把有缺失值的特征删掉)讲到更有趣也更复杂的方式(在其他特征上进行机器学习,填充缺失值)。在填充大量缺失值后,就可以测量缺失值对机器学习算法的影响了。归一化是用(一般比较简单的)数学工具改变数据的缩放比例。还是一样,这可以很简单,例如将英里转换为英尺、将磅转换为千克;也可以很复杂,例如将数据投影到单位球体上。

每当遇见一个新的数据集或特征工程,都要进行测试。我们会根据不同的标准为各种特征工程方法打分,例如机器学习的性能、速度,等等。这一章的流程仅供参考,并不能作为指南,因为不能在忽略难度和性能的情况下选择特征工程方法。每个数据任务都有自己的注意事项,需要的流程可能和先前的不同。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值