Python-数据质量分析

最新推荐文章于 2024-04-21 16:33:05 发布

多喝热水　

最新推荐文章于 2024-04-21 16:33:05 发布

阅读量2k

点赞数 1

分类专栏： Python相关

Python相关专栏收录该内容

47 篇文章 2 订阅

订阅专栏

数值质量分析的必要性

数据质量分析是数据挖掘中数据准备过程的重要一环，是数据预处理的前提，也是数据挖掘分析结论有效性和准确性的基础。只有可信的数据才能保证数据挖掘的可靠。

数据质量分析的任务

数据质量分析的主要任务是检查原始数据中是否存在脏数据。

脏数据指不符合要求以及不能直接进行相应分析的数据。

脏数据包括：缺失值；异常值；不一致的值；重复数据以及含有特殊符号的（如#、￥、*）的数据。

1.缺失值分析

缺失值分析主要包括记录的缺失和记录中某个字段信息的缺失，两者都会造成分析结果的不准确，以下列出缺失值产生原因和影响：

（1）缺失值产生原因

1.有些信息暂时无法获取，或者获取信息代价较大。

2.信息遗漏。由于人为忘记填写、人为不重要或者数据理解错误，亦或者由于数据采集设备的故障、存储介质的故障和传输每天的故障等非人为因素。

3.属性值不存在。某些情况下，缺失值并不意味着数据错误。对一些对象来说某些属性值是不存在的，如儿童收入。

（2）缺失值的影响

1.数据挖掘建模将丢失大量有用信息。

2.数据挖掘模型更加不确定，数据规律更难把握。

3.包含空值的数据会使建模过程陷入混乱，导致不可靠输出。

（3）缺失值分析方法

1.缺失值统计分析：可以得到含有缺失值的属性个数，以及每个属性的未缺失值个数。

2.处理缺失值可以：删除存在缺失值的记录；对可能值进行插值；对缺失值不做处理（一般针对合理缺失值）。

2.异常值分析方法

异常值也称离群点，异常值分析也称离群点分析

（1）简单统计量分析

先对变量做一个描述性统计，进而查看哪些数据不合理。常用统计量是最大值和最小值，用来判断变量取值是否超出合理范围，例如满分100，学生成绩为200，则该值异常。

（2）3σ原则

如果数据服从正态分布，在3σ原则下，异常值被定义为一组测定值中雨平均值偏差超多3倍标准差的值。距离平均值3σ之外的值出现的概率为

属于极个别小概率事件。如果不服从正态分布，可以用远离平均值的标准差倍数描述。

（3）箱型图分析

1.箱型图提供了一个识别异常值的标准：

异常值通常被定义为小于或者大于的值。被称为下四分位，表示全部数据中有四分之一的数值比它小；被称为上四分位，表示全部数据中有四分之一的数值比它大；称为四分位数间距，是上四分位和下四分位之差，其间包含全部观测值的一半。

2.箱型图依据实际数据回执，没有对数据做任何限制，是数据分布的直观展示；

3.箱型图判断异常的标准是以四分位和四分位距离为基础，四分位数具有一定的鲁棒性：多达25%的数据可以变得任意远而不会很大地扰动四分位数，所以异常值不对这个标准施加影响。

4.箱型图识别异常值结果比较客观，具有一定优越性。

箱型图检测异常值示意图

3.一致性分析

（1）一致性问题的来源

在数据挖掘中，不一致的数据主要产生在数据集成过程中，可能由于被挖掘的数据来自于不同的数据源，或者数据重复存放而未进行一致性更新。例如，在两张表中存放同一个人的电话号码，但是当他号码更换后只更新了其中一个表中的数据，则两张表中同一个人的电话号码就出现了不一致。

（2）不一致数据的处理

根据具体情况进行数据合并，或删除旧数据，或进行数据融合（新旧数据不全）

多喝热水　

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

多喝热水　 CSDN认证博客专家 CSDN认证企业博客

码龄8年

116: 原创

3万+: 周排名

130万+: 总排名

19万+: 访问

: 等级

2472: 积分

1955: 粉丝

94: 获赞

38: 评论

739: 收藏

私信

关注

热门文章

分类专栏

信息安全 20篇
大数据 1篇
道家 2篇
机器学习 9篇
设计模式 4篇
Python相关 47篇
Java相关 3篇
React相关 12篇
数据库 6篇
GIT 5篇
Excel 2篇
学习路径 3篇

最新评论

Python数据有效性DataValidation模块
冷小鱼: dv.ranges.ranges.append(MultiCellRange('B1:B10000')) 勉强可以，至于为啥是10000，因为不支持所有列，你给个差不多的值就好了，再大了导不进去。作者的写法，一个个加才行，但是性能特别差。
【逻辑漏洞】短信轰炸
小嘎5857: 有截图吗，这个短信轰炸到底咋测的，百度半天没找到，只有一些文字，如果程序做了一分钟只能发一次的限制，那我们可以一次性并发发50个呢，听说可以用bp的turbo intruder ，不会用啊
Burpsuite配合蚁剑制作并连接图片马
夜未至: 对
Burpsuite配合蚁剑制作并连接图片马
缘忆02: 白名单的关卡，还存在文件包含，会自动运行图片中存在的PHP语句，.jpg或.png结尾绕过白名单，在借用文件包含漏洞，连接图片中的木马语句，我所知道的这种情况如果不存在文件包含漏洞就无法连接
Burpsuite配合蚁剑制作并连接图片马
__Charlie___: 图片马怎么连接？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。