数据预处理技术

进行数据挖掘和机器学习之前,必须保证数据是可靠、可用的。

这就要通过一定技术,对数据进行处理和转换,将原始数据转化成算法和模型需要的格式和内容。

这就是数据预处理技术,其对数据挖掘效果的好坏,预测结果的正确性具有基础性的作用。


数据预处理一般包括:数据清洗、集成、转换、规约。

数据清洗:

目的:格式标准化、异常数据清理、错误纠正、重复数据清除。

主要任务:缺失值处理、去噪。

缺省值的处理:忽略元祖、人工填写、使用全局常量、使用属性中位数、使用属性平均值、使用同类样本属性平均值或中位数。

去噪:噪声由随机误差产生。去噪的方法:舍弃噪声数据、噪声平滑、人工检查。

去噪的数据平滑方法:分箱(等深、等宽)、回归。

数据集成:

目的:集成多个数据源的数据,增大数据完整性

数据转化:

目的:将数据抓换成数据挖掘算法、机器学习算法接受的格式。

方法:线性归一化,Z-score规范化为标准高斯分布。

数据规约:<

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值