数据挖掘之数据预处理

  • 为什么要进行数据预处理?

现实情况中,你的数据可能是不完整的(缺少属性值或某些感兴趣的属性或仅包含聚类数据)、含噪声的(包含错误或存在偏离期望的离群值)、并且是不一致的。

数据清理:填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性

数据集成:当数据来自多个数据源时,而同一个属性在不同数据源不同,合成时存在冗余

数据规约:数据集的简化

  • 描述性数据汇总

 1 度量数据的中心趋势

均值、中位数、众数、中列数(最大值和最小值的平均值)

 2 度量数据的离散程度

四分位数、四分位数极差、方差

五数概况:最小值、第一个四分位数、中位数、第三个四分位数、最大值

 3 图形显示

直方图、分位数图、q-q图

  • 数据清理

 

  • 数据集成和变换

 

  • 数据规约

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值