大数据分析与挖掘-Part2-数据预处理

大数据分析与挖掘-Part2-数据预处理

为什么要进行数据预处理?

  • 初始数据集的准备与变化是数据挖掘的过程中重要步骤

  • 包含大量不完整,含噪声和不完整的数据是大数据应用中的典型特点

  • 数据的预处理能够有效提高数据质量,节约大量的时间和空间

  • 大部分数据挖掘算法对输入数据的格式,质量以及规模有一定的要求

  • 现实世界的数据是“脏的”

  • 随着数据规模的增加,会出现很多数据质量问题:

    不完整

    • 缺失值:缺乏某些重要属性,仅包含聚集数据

    噪声

    • 包含错误值,离群点

    不一致

    • 由于重复存放的数据未能进行一致性地更新造成的
    • 多用户系统,更新操作未能同步进行而引起
    • 由于各种故障,错误造成的
  • 没有有质量的数据,就没有有质量的挖掘结果(No quality data,No quality mining result!

评价数据质量的指标

完整性(Completeness)

记录的缺失,一个对象遗漏一个或多个属性值,有实体完整性,域完整性,参照完整性

一致性(Consistency)

多个数据间更新的同步,包括数据记录的规范和数据逻辑的一致性

时效性(Timeliness)

是否及时更新

可信性(Believability)

解释性(Interpretability)

数据的汇总统计

为量化的,用单个数或小集合捕获可能很大的值集的各种特征

描述数据集中趋势的度量

平均数
  • 优点:能够利用所有数据的特征,而且比较好算
  • 缺点:平均数容易受极端数据的影响。
中位数
  • 按数序排列的一组数据中居于中间位置的数据。
  • 它不受最大,最小两个极端数值的影响,部分数据的变动对中位数没有影响,当一组数据中的个别数据变动较大时,常用于描述这组数据的集中趋势。
众数
  • 在一组数据中出现次数最多的数据。
  • 适合数据量较多时使用,且不受极端值的影响
  • 当数值或被观察者没有明显次序(常发生于非数值性资料)时特别有用,因为这类数据无法很好地定义算数平均数和中位数。
集中趋势到分布形态度量——偏度
  • 偏度是统计数据分布偏斜方向和程度的变量

在这里插入图片描述

描述数据离散程度的度量

极差
  • 极差是指一组测量值内最大值与最小值之差,又称范围误差或全距,以R表示
  • 优点:能够体现一组数据波动的范围,极差越大,离散程度越大
  • 缺点:未能 利用全部测量值的信息
  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值