读《python数据挖掘与分析》之三

数据探索

数据质量分析

1. 数据质量分析的主要任务是检查原始数据中是否存在脏数据(不符合要求,不能进行相应分析的数据)包括以下1.缺失值,2.异常值,3.不一致的值,4.重复数据及含有特殊符号的数据

缺失值分析:

1.缺失值主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成分析结果的不准确 缺失值产生的原因:1.分析前无法获取的信息,或者信息的代价太大。2.有些信息是被遗漏的。3.属性值不存在

缺失值的影响:

1.建模时将丢失大量的有用信息,2.数据挖掘模型所表现出来的不确定性更加显著,模型中蕴涵的规律更加难把握,3.包含空值的数据会使建模过程陷入混乱,导致不可靠的输出 怎么去处理后面有详细的介绍

异常值分析

异常值是指样本中的个别值,其数值明显偏离其余的观测值 异常值分析是检测数据是否有录入错误以及有不合理的数据。 (1).简单统计量分析:常用的统计量是最大值和最小值,用来判断这个变量是否超出了合理的范围 (2).3原则 ![在这里插入图片描述](https://img-blog.csdnimg.cn/20190529151804541.png) (3).箱型图分析 ![在这里插入图片描述](https://img-blog.csdnimg.cn/20190529151849676.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzI4MDY5NTc3,size_16,color_FFFFFF,t_70)

这章开始牵涉代码实现了,现在只是在本地实现,等有时间上传到GitHub上再添加连接

一致性分析

数据不一致性是指数据的矛盾性,不相溶性。
在数据挖掘中,不一致性的产生主要发生再数据集成过程中,这个可能是由于被挖掘数据是来于不同的数据源,对于重复放的数据未能进行一致性更新造成的

数据特征分析

对数据进行质量分析以后,接下来可通过绘制图表,计算某些特征量等手段进行数据的特征分析。

分布分析

分布分析能揭示数据的分布特征和分布类型。** 对于定量数据,欲了解其分布形式是对称的还是非对称的,发现某些特大或者特小的可疑值,可通过绘制频率分布表,绘制频率分布直方图,绘制茎叶图进行只管的分析;对于定性分类数据,可用饼图和条形图直观地显示分布情况 。**

定量数据的分布分析

对于定量变量,选择“组数”和“组宽”是做频率分布分析时最主要的问题,按照一下步骤进行**1.求极差,2.决定组距与组数,3.决定分点,4.列出频率分布表,5.绘制频率分布直方图。**

遵循的主要原则:1.各组之间必须时互相排斥的,2.各组必须将所有的数据包含在内,3.各组的组宽最好相等

定性数据的分布分析

对于定性变量,常常根据变量的分类类型来分组,可以采用饼图和条形图来描述定性变量的分布。

对比分析:

对比分析是指把两个互相联系的指标进行比较,从数量上展示和说明研究对象规模的大小,水平的高低,速度的快慢,以及各种关系是否协调。在对比分析中,选择合适的对比标准是十分关键的步骤,只有选择合适,才能做出客观的评价

对比分析主要有以下两种形式

绝对数比较

相对数比较:相对数比较是由两个有联系的指标对比计算的,用以反应客观现象之间数量联系程度的综合指标,其数值表现为相对数。根据研究目的和对比基础不同,相对数可以分为以下几种

  1. 结构相对数:将同一总体内的部分数值与全部数值对比求得比重,用以说明事物的性质,结构或者质量。
  2. 比例相对数:将同一总体内不同部分的数值进行对比,表明总体内各部分的比例关系
  3. 比较相对数:将同一时期两个性质相同的指标数值进行对比,说明同类现象在不同空间条件下的数量对比关系。
  4. 强度相对数:将两个性质不同但有一定联系的总量指标进行对比,用以说明现象的强度,密度和普遍程度。
  5. 计划完成程度相对数:是某一时期实际完成数与计划数的对比,用以说明计划完成程度。
  6. 动态相对数:将同一现象在不同时期的指标数值进行对比,用以说明发展方向和变化的速度
统计量分析

用统计指标对定量数据进行统计描述,常从集中趋势和离中趋势两个方面进行分析。

集中趋势度量:

1.均值,或者加权均值,2.中位数3.众数

离中趋势度量

1. 极差:对数据集的极端值非常敏感2.标准差:度量数据偏离均值的程度3.变异系数:变异系数度量标准差相对于均值的离中趋势(公式见书)作用:主要用来比较两个或者多个具有不同单位或者不同波动幅度的数据集的离中趋势4.四分位数间距:字数太多,可以看看书里面的

周期性分析

周期性分析是探索某个变量是否随着时间变化而呈现出某种周期变化趋势。

贡献度分析

贡献度分析又称帕累托分析,原理:帕累托法则,又称20/80定律。同样的投入放在不同的地方会产生不同的效益

相关性分析

分析连续变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程称为相关分析

1.直接绘制散点图2.绘制散点图矩阵3.计算相关系数(为了更加准确地描述变量之间的线性相关程度。可以通过计算相关系数来进行相关分析。在二元变量的相关分析过程中比较常用的有Pearson相关系数,Spearman秩相关系数和判定系数)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值