数据预处理

1.数据质量涉及许多因素,包括准确性,完整性,一致性,时效性,可信性和可解释性
2.数据预处理的主要任务,及数据清理,数据集成,数据规约和数据变换
数据清理:通过填写确实数据,光滑噪声数据,识别或者删除离群点,并解决不一致性来清理数据
3.数据规约:在维规约中,例如使用PCA,小波变换等,以及属性子集选择和和属性够造。在数值规约中,使用参数模型或者非参数模型,用较小的表示取代数据。假设你使用神经网络,最近岭等给予距离的挖掘算法,就是把数据放到一个范围中,比如0到1之间。
缺失值的处理:
1.忽略元祖,当元祖数据顺势比较多的时候这么干
2.人工填写缺失值,当数据量大,确实数据较多,该方法不行
3.使用一个全局常量填充缺失值,方法简单,但是不可靠
4.使用属性的中心度量,如均值或者中位数
5.使用与给定元祖属同一类的所有样本的属性均值或者中位数,如果给定数据分布是倾斜的,中位数好一点
6.使用最有可能的值填充缺失值,利用回归和贝叶斯推理或者决策树归纳确定
通过规范化来变换数据:
最小-最大规范化

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值