Python-数据质量分析

数值质量分析的必要性

数据质量分析是数据挖掘中数据准备过程的重要一环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础。只有可信的数据才能保证数据挖掘的可靠。

数据质量分析的任务

数据质量分析的主要任务是检查原始数据中是否存在脏数据。

脏数据指不符合要求以及不能直接进行相应分析的数据。

脏数据包括: 缺失值; 异常值; 不一致的值; 重复数据以及含有特殊符号的(如#、¥、*)的数据。

1.缺失值分析

缺失值分析主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成分析结果的不准确,以下列出缺失值产生原因和影响:

(1)缺失值产生原因

1.有些信息暂时无法获取,或者获取信息代价较大。

2.信息遗漏。由于人为忘记填写、人为不重要或者数据理解错误,亦或者由于数据采集设备的故障、存储介质的故障和传输每天的故障等非人为因素。

3.属性值不存在。某些情况下,缺失值并不意味着数据错误。对一些对象来说某些属性值是不存在的,如儿童收入。    

(2)缺失值的影响

1.数据挖掘建模将丢失大量有用信息。

2.数据挖掘模型更加不确定,数据规律更难把握。

3.包含空值的数据会使建模过程陷入混乱,导致不可靠输出。

(3)缺失值分析方法

1.缺失值统计分析:可以得到含有缺失值的属性个数,以及每个属性的未缺失值个数。

2.处理缺失值可以: 删除存在缺失值的记录; 对可能值进行插值; 对缺失值不做处理(一般针对合理缺失值)。

2.异常值分析方法

异常值也称离群点,异常值分析也称离群点分析

(1)简单统计量分析

先对变量做一个描述性统计,进而查看哪些数据不合理。常用统计量是最大值和最小值,用来判断变量取值是否超出合理范围,例如满分100,学生成绩为200,则该值异常。  

(2)3σ原则

如果数据服从正态分布,在3σ原则下,异常值被定义为一组测定值中雨平均值偏差超多3倍标准差的值。距离平均值3σ之外的值出现的概率为

属于极个别小概率事件。如果不服从正态分布,可以用远离平均值的标准差倍数描述。

(3)箱型图分析

1.箱型图提供了一个识别异常值的标准:

异常值通常被定义为小于或者大于 的值。被称为下四分位,表示全部数据中有四分之一的数值比它小;被称为上四分位,表示全部数据中有四分之一的数值比它大; 称为四分位数间距,是上四分位和下四分位之差,其间包含全部观测值的一半。

2.箱型图依据实际数据回执,没有对数据做任何限制, 是数据分布的直观展示;

3.箱型图判断异常的标准是以四分位和四分位距离为基础, 四分位数具有一定的鲁棒性:多达25%的数据可以变得 任意远而不会很大地扰动四分位数,所以异常值不对这 个标准施加影响。

4.箱型图识别异常值结果比较客观,具有一定优越性。

箱型图检测异常值示意图

3.一致性分析

(1) 一致性问题的来源

在数据挖掘中,不一致的数据主要产生在数据集成过程中,可能由于被挖掘的数据来自于不同的数据源,或者数据重复存放而未进行一致性更新。例如,在两张表中存放同一个人的电话号码,但是当他号码更换后只更新了其中一个表中的数据,则两张表中同一个人的电话号码就出现了不一致。

(2)不一致数据的处理

根据具体情况进行数据合并,或删除旧数据,或进行数据融合(新旧数据不全)

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
【为什么学习数据挖掘】       人工智能、大数据时代有什么技能是可以运用在各种行业的?数据分析就是。      从海量数据中获得别人看不见的信息,创业者可以通过数据分析来优化产品,营销人员可以通过数据分析改进营销策略,产品经理可以通过数据分析洞察用户习惯,金融从业者可以通过数据分析规避投资风险,程序员可以通过数据分析进一步挖掘出数据价值,它和编程一样,本质上也是一个工具,通过数据来对现实事物进行分析和识别的能力。不管你从事什么行业,掌握了数据分析能力,往往在其岗位上更有竞争力。【超实用的课程内容】      本课程为Python数据挖掘方向的入门课程,课程主要以真实数据为基础,详细介绍数据挖掘入门的流程和使用Python实现pandas与numpy在数据挖掘方向的运用,并深入学习如何运用scikit-learn调用常用的数据挖掘算法解决数据挖掘问题,为进一步深入学习数据挖掘打下扎实的基础。本课程分为三大部分:基础知识篇:主要讲解数据挖掘这项技能的基本工作流程和介绍和入门必须的基本技能Python语言的入门,带领大家了解数据挖掘的常见操作和基础知识。数据采集篇:学习如何解决数据挖掘的数据来源问题,读取各类型不同的数据包括CSV,excel,MySQL进行数据采集的交互。数据探索篇:本篇主要解决数据的预处理保证数据质量并用常见数据挖掘算法进行特征提取,分析数据背后隐含的信息。【报名须知】课程采取录播模式,课程永久有效,可无限次观看课件、课程案例代码完全开放给你,你可以根据所学知识,自行修改、优化【如何开始学习?】PC端:报名成功后可以直接进入课程学习移动端:下载CSDN学院或CSDN

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值