人工智能学习教程笔记-5:数据清洗

文章部分内容参考自https://captainbed.net

数据清洗

数据清洗概述

数据对于算法来说,就好比石油对于汽车。但石油也是提炼于原油,需要花费很大的功夫进行开采、提炼。

同样,作为一名机器学习工程师,大量的时间就要用于清洗数据,把最原始的数据清理为我们的算法模型可以直接用来训练的数据。

常用手段

简单介绍几个数据清洗手段:

缩放特征值

指缩小特征值的范围,留下一些高价值的特征值,删除一些用处不是很大的特征值。其有点如下:

  • 使梯度下降算法更加迅速地收敛
  • 避免NaN陷阱(超出精度范围)
  • 帮助模型为特征确定合适的权重

清查

简单来说就是手动检查一遍所有的数据,现实生活中的数据往往会有很多问题。例如:

  • 遗漏值
    例如,有人忘记为某个房屋的年龄输入值。
  • 重复样本
    例如,服务器错误地将同一条记录上传了两次。
  • 不良标签。
    例如,有人错误地将一颗橡树的图片标记为枫树。
  • 不良特征值。
    例如,有人输入了多余的位数

很多研究生干的都是这个事。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值