数据分析与挖掘(二)数据探索

这里是数据探索的总结

 

  • 1.1数据质量分析

数据质量分析的首要任务就是检查原始数据中是否存在脏数据,一般是指不合规的数据。其中包括(缺失值,异常值,不一致的值)

  • 1.1.1缺失值分析

(1)缺失值产生的原因:有些信息无法获取,或者信息的代价太大。

(2)缺失值的影响:数据挖掘建模将丢失大量有用的信息,不确定性会显著增强,包含空值的数据会使建模过程更加混乱,导致不可靠的输出。

 

  • 1.1.2异常值分析

异常值分析是检验数据是否有录入错误以及含有不合理的数据。需要在数据建模之前将其剔除。异常值是指在样本中的个别值,其数值明显偏离其余的正常值。也称离群点,异常值分析也称离群点分析。

(1)简单统计量分析:先对变量做一个描述性统计,进而查看哪些数据不科学。

(2)3\delta原则:数据服从正态分布,在3\delta原则下,异常值被定义为一组测定值中与平均值的偏差超过三倍标准差的值。

  • 1.2数据特征分析

  • 1.2.1分布分析

分布分析能解释数据的分布特征和分布类型

1.定量数据的分布分析

对于定量变量而言,选择“组数”和“组宽”是做频率分布分析是最主要的瓦内特,一般按照以下步骤进行:

1)求极差

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值