Python数据分析与挖掘:数据探索(一)

数据质量分析:

脏数据检查

脏数据:

 缺失值

异常值

不一致的值

重复数据及含有特殊符号(#,&,¥)的数据



缺失值分析:

1、缺失值产生的原因

1)有些信息暂时无法获取,或者获取信息的代价太大

2)某些信息被遗漏:有些信息被人为因素或设备故障而被遗漏

3)属性值不存在:对某些对象来说某些属性值是不存在的

2、缺失值的影响

1)数据挖掘建模将会丢失大量的有用信息

2)数据模型所表现出的不确定性更加显著,模型中的规律更难把握

3)包含空值的数据会使建模过程陷入混乱,导致不可靠的输出。

 


异常值分析

检验数据是否有录入错误以及是否含有不合常理的数据。

异常值通常是指样本中的个别值,其数值明显偏离其余的观测值,异常值也叫离群点,异常值分析也叫作离群点分析。

1)简单统计量分析

可以先对数据做一个描述性统计,然后查看哪些数据是不合理的。

最常用的统计量是最大值和最小值,可用来判断某一变量的取值是否超出了合理的范围。

2)3\sigma原则

数据服从正态分布,在3\sigma原则下,异常值被定义为一组测定值中与平均值\mu的偏差超过3倍标准差\sigma的值。

在正态分布的假设下,距离平均值3\sigma之外的值出现的概率为P(|x- \mu |>3\sigma) \leqslant 0.003,属于极个别的小概率事件。

若数据不服从正态分布,也可以用远离平均值得多少倍标准差来描述。

3)箱型图分析

箱型图的标准-->异常值x通常被定义为:x<Q_L-1.5IQRx>Q_U+1.5IQR

其中,Q_L称为下四分位数,表示全部观察数据中有四份之一的数据取值比它小;Q_U称为上四分位数,表示全部观察数据中有四份之一的数据取值比它大;IQR称为四分位数间距,是上四分位数Q_U与下四分位数Q_L之差,其间包含了全部观察值的一半。

箱型图依据实际数据绘制,没有对数据做任何限制性要求(如服从某种特定的分布形式),它只是真实地表现数据分布的本来面貌;箱型图判断异常值得标准以四分位数和四分位距为基础,四分位数具有一定的鲁棒性:多达25%的数据可以变得任意远而不会很大的扰动四分位数,所以异常值不会对这个标准施加影响

 


不一致性分析

数据的不一致性是指数据的矛盾性、不相容性。

不一致的数据主要发生在数据集成的过程中,这可能是由于被挖掘的数据是来至于从不同的数据源、对于重复存放的数据未能进行一致性更新造成的。

 

 

 

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值