数据探索性分析

数据探索性分析

数据质量分析

缺失值分析

1、缺失值产生的原因
1)有些暂时无法获取的数据,或者获取代价太大的数据
2)有些是被遗漏的数据

  • 输入时认为不重要,忘记填写,对数据理解错误,一些人为的因素

  • 数据采集设备故障,存储介质故障,传输媒体的故障等非人为丢失

2、缺失值的影响

  • 数据挖掘建模将丢失大量有用信息
  • 挖掘模型所表现的不确定性更加显著
  • 包含空值的数据会使建模过程陷入混乱,导致不可靠的输出

3、缺失值分析

  • 简单的统计分析:得到含有缺失值的属性及个数,和缺失率
  • 从总体上来说:缺失值处理分为三个:
    • 删除
    • 插补
    • 不处理

异常值分析

含义:是检验是否含有录入错误,以及不合常理的数据,异常值是指样本中的个别值,其数值明显偏离其余的观测值,异常值也称离群点
1、作简单统计量分析
可以先对变量做一个描述性统计,进而查看哪些数据是不合理的,最常用的统计量是,最大,最小值,如:客户年龄199岁,则该变量的取值存在异常
箱型图分析

一致性分析

数据的不一致性是指数据的矛盾性,不相容性。
在数据挖掘中,不一致数据主要产生在数据集成的过程中,

数据特征分析

对数据进行质量分析之后,接下来可以通过绘制图表,计算某些特征量等手段进行数据的特征分析

分布分析

揭示数据的分布特征和分布类型,

  • 对于定量数据:欲了解其分布形式的对称性,非对称性,发现某些特大或特小的可疑值
    • 可通过绘制:频率分布表,频率分布直方图,茎叶图
  • 定性分类数据:可用饼图,条形图,显示分布情况

1、定量数据的分布分析
对于定量数据,选择‘组距’和‘组数’是频率分布分析最主要的问题,一般按照以下步骤进行:
1)求极差(最大-最小)
2)决定组距和组数(根据业务取组距,组数 = 极差 / 组距)
3)决定分点
4)列出频率分布表
5)绘制频率分布直方图
遵循的主要原则如下
1)各组之间必须是相互排斥的
2)各组之间必须将所有的数据包含
3)各组的组宽最好都相等

2、定性数据的分布分析
对于定性数据,常常根据数据的分类类型来分组,饼图和条形图

对比分析

两种形式
1、绝对数比较
利用绝对数进行对比

2、相对数比较
对两个有联系的指标对比计算

  • 结构相对数:将同一总体内的部分数值与全部数值进行对比求得比重,用以说明事物的结构,质量,性质的相似度
  • 比例相对数
  • 比较相对数
  • 强度相对数
  • 计划完成相对数
  • 动态相对数:用同一种现象在不同时期的指标数值进行对比,用以说明,数据事物的周期性,发展速度,增长速度等

统计量分析

1、集中趋势度量
平均数、中位数、众数
2、离中趋势度量
极差、标准差、变异系数、四分位间距(上四分位与下四分位之差)
describe

周期性分析

某个变量随着时间变化呈现出的某种周期性变化趋势,

贡献度分析

原理是帕累托法则,就是28原则,同样的投入放在不同的地方产生不同的效益
例如:一个公司80%的收益常常来自20%最畅销的产品,而其他80%的产品只有20%的收益

相关性分析

corr
1、绘制散点图最直观
在这里插入图片描述
2、计算相关系数
1)pearson相关系数
在这里插入图片描述
2)Spearman相关系数
pearson线性相关系数,要求服从正态分布,不服从正态分布的变量可采用Spearman

python主要数据探索函数

基本统计特征函数

在这里插入图片描述

拓展统计特征函数

在这里插入图片描述在这里插入图片描述在这里插入图片描述

统计作图函数(matplotlib)

在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值