数据分析

数据质量分析

  1. 目的: 数据挖掘的数据质量分析以评估数据的正确性和有效性为目标,而在通常的数据挖掘中主要关注正确性,确保数据的正确性自然是数据质量分析的首要目标。
  2. 数据正确性:
    1. 缺失值 : null 或者无意义的值
    2. 数据错误 :输入时排字错误
    3. 度量标准错误: 不正确的度量标准
    4. 编码不一致: 非标准度量单位、不一致的值。如:同时使用M、male表示性别。
  3. 数据有效性:
    1. 数据统计方面的信息。
    2. 占比
    3. 方差
    4. 均值
    5. 分位数
  4. 方法:
    1. 对象:宽表
    2. 变量:数值变量、分类变量
    3. 数值变量:离散型、连续型
    4. 常用方法:值分析、统计分析(偏度)、频次与直方图分析。
  5. 结果及应用
    1. 数据质量分析的结果通常是一份数据质量分析报告。

 

3.3 数据预处理

  1. 现实中采集的数据的准确性、完整性、一致性都很差。
  2. 数据通常存在可信性和可解释性的问题:例如生日信息1月1日、通过编码代替某些信息等。
  3. 数据预处理的主要任务:
    1. 数据清洗:通过填写缺失数据,光滑噪声数据,识别或者删除离群点并解决不一致性等方式清洗数据。
      1. 删除法:缺失值所占样本比例较小(<5%)
      2. 插补法:
    2. 数据集成:把不同来源、格式、性质的数据在逻辑上或者物理上有机地集中。
    3. 数据规约:把得到的数据集简化表示,虽小得多,但能够产生同样的分析结果。
    4. 数据变换:从一种表示形式变为另一种表示形式的过程。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ambrosedream

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值