数据挖掘之数据探索

一、数据质量分析

检查原始数据中是否存在脏数据

脏数据包括:

缺失值、异常值、重复值、不一致的值、含有特殊符号的数据

1.1 缺失值分析

从以下方面进行分析:

(1)缺失值产生的原因

         数据无法获取

         数据被遗漏

         属性值本身不存在

(2)缺失值的影响

         数据掘建模丢失大量信息

         数据挖掘模型所表现出的不确定性更加显著,模型中蕴含的规律更难把握

         缺失值数据会使建模过程陷入混乱,导致不可靠的输出

(3)缺失值的统计分析

         对含有缺失值的属性统计个数以及缺失数和缺失率等

1.2 异常值分析

异常值是指样本中个别值,数值偏离其他观测值,即离群点

(1)描述性统计分析

         对变量进行描述性统计,查看哪些数据不合理

(2)3\sigma原则

         如果数据符合正态分布,在3\sigma原则下,异常值被定为为一组测定值中与平均值偏差超过3倍           标准差的值,在正态分布下,距离平均值3\sigma之外的值出现的概率属于小概率事假。如果数据           不符合正态分布,也可以用原理平均值多少倍标准差来描述

(3)箱型图分析

                

         Q_{L}:下四分位数   Qu:上四分位数   IQR:四分位数间距(Qu-Q_{L}

         异常值被定义为小于Q_{L}-1.5IQR或者大于Qu+1.5IQR                                                        

二、数据特征分析

2.1 分布分析

2.1.1 定量数据分布分析

频率分布直方图

2.1.2 定性数据分布分析

饼图、条形图

2.2 对比分析

2.3 统计量分析

对定量数据进行统计描述

2.3.1 集中趋势度量

均值:对极端值很敏感,数据如果存在极端值或者偏态分布,采用截断均值或者使用中位数度量集中趋势

中位数

众数

2.3.2 离中趋势度量

极差:对数据集极端值非常敏感

标准差:数据偏离均值的程度

变异系数:度量标准差相对于均值的离中趋势,用来比较多个不同单位数据集的离中趋势

四分位数间距:数据变异程度

2.4 周期性分析

探索某个变量是否随着时间变化而呈现出某种周期变化趋势

周期性趋势:年度周期性趋势、季节性周期趋势、月度周期性趋势、周度周期性趋势等

2.5 贡献度分析

20/80定律

2.6 相关性分析

相关性分析:连续变量之间的线性相关程度的强弱

2.6.1 直接绘制散点图

两个变量之间的散点图

2.6.2 绘制散点图矩阵

同时考虑多个变量之间的相关关系

2.6.3 相关系数

相关系数:更加准确描述变量之间相关性程度

二元变量相关系数:Pearson相关系数、Spearman秩相关系数、判定系数(R方)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值