数据探索

1.数据质量分析

数据质量分析主要任务:检查原始数据是否存在脏数据。

脏数据:

  • 缺失值
  • 异常值
  • 不一致的值
  • 重复数据及含有特殊符号(如:#、¥、*)的数据

1.1 缺失值分析

数据缺失主要包括:记录的缺失、记录中某个字段信息的缺失。

缺失值产生原因:

  • 有些信息暂时无法获取,获取信息代价太大
  • 部分信息被遗漏,人为因素:忘记填写或对数据理解错误引起数据遗漏;非人为因素:数据采集设备、存储介质、传输媒体故障引起数据丢失
  • 属性值不存在,如:未婚者配偶姓名

缺失值影响:

  • 数据挖掘建模丢失大量有用信息
  • 数据挖掘模型所表现处的不确定性更加显著
  • 控制数据会导致建模过程陷入混乱,导致不可靠的输出

缺失值分析:

1.2 异常值分析

异常值分析:检验数据是否有录入错误及不合常理的数据。

异常分析方法:

  • 简单统计量分析:常用统计量,最大值、最小值,用于判断变量取值是否超出合理范围
  • 3δ原则;若数据服从正态分布,异常值被定义为,一组测定值中与平均值偏差超过3倍标准差的值
  • 箱型图分析:异常值被定义为小于QL-1.5IQLR或大于QL+1.5IQLR的值

1.3一致性分析

数据不一致性,指数据的矛盾性、不相容性,主要发生在数据集成过程中。

2.数据特征分析

2.1 分布特征

定量数据分布分析:

常用手段:绘制频率分布表、频率分布直方图、茎叶图

频率分布分析步骤:

  • 求极差【极差=最大值-最小值】
  • 决定组距与组数【组数=极差/组距】
  • 决定分点
  • 列出频率分布表
  • 绘制分布直方图

定性数据分布分析:

常用手段:绘制饼图、条形图

2.2 对比分析

概念:将两个相互联系的指标进行比较

用途:用于指标间的横纵向比较、时间序列的比较分析

两种形式:绝对数比较、相对数比较

绝对数比较

  绝对数比较是利用绝对数进行对比,寻找差异

相对数比较

  相对数比较是 通过2个有联系的指标计算的,用以反映客观现象之间的数量联系程度

  • 结构相对数:将同一总体内的部分数值与全部数值对比求比重【如:产品合格率】
  • 比例相对数:将同一总体内不同部分的数值比例进行对比,表明总体内各部分的比例关系【如:人口性别比例】
  • 比较相对数:将同一时期两个性质相同的指标数值进行对比,说明同类现象在不同空间条件下数量对比关系【如:不同地区商品价格对比】
  • 强度相对数:将两个性质不同但有一定联系的总量的指标进行对比,用以说明现象的强度、密度、普遍程度【如:人均国内生产总值用“人/元”表示】
  • 动态相对数:将同一现象在不同时期的指标数值进行对比,用以说明发展方向和变化速度【如:增长速度】
  • 计划完成程度相对数:某一时期实际完成数与计划数对比,用以说明计划完成程度

2.3 统计量分析

通常从集中趋势和离中趋势两个方面进行分析

集中趋势度量

  • 均值
  • 中位数
  • 众数

离中趋势度量

  • 极差
  • 标准差
  • 变异系数
  • 四分位数间距

2.4 周期性分析

周期性分析,用以探索某个变量是否随着时间变化而呈现出的某种周期变化趋势

2.5 贡献度分析

2.6 相关性分析

相关性分析,分析连续变量之间线性相关程度的强弱,并用适当统计指标表示出来的过程

相关性分析方法

a:绘制散点图(单个变量)

b:绘制散点图矩阵(多个变量)

c:计算相关系数

  • Pearson相关系数(两个连续性变量)
  • Spearman秩相关系数(连续性变量取值服从正态分布)
  • 判定系数(相关系数的平方)

 

转载于:https://www.cnblogs.com/loser1949/p/8290598.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值