DataMiner

最新推荐文章于 2024-08-19 10:47:19 发布

Maroon°

最新推荐文章于 2024-08-19 10:47:19 发布

阅读量639

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45050487/article/details/108840041

版权

1、关于数据质量的讨论

查阅资料后，我们得知数据质量评估的标准主要为以下6个方面：

评估标准	评估的方面	解决方法距离
完整性	评估哪些数据丢失了或者哪些数据不可用	去除不必要空格和空值
一致性	评估哪些数据值提供了冲突信息	防止冲突，比如加锁
规范性	评估哪些数据是以非标准格式存储的	尽量在输入时保证规范
准确性	评估哪些数据不能正确的描述对象的属性或已经过期	对数据进行去除提高准确性
唯一性	评估哪些数据记录是重复的记录	对重复数据进行标记
及时性	评估关键数据是否及时传送到目标应用	及时更新关键数据

2、数据质量处理工具的下载和安装

我们小组选择的数据质量处理工具是OpenReFine。

3、运行实例数据的数据清理过程

初始数据如下：

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-litJv4BF-1601226085575)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1601223824157.png)]$

其中包含导演、演员、预算、电影评分以及上映时间等信息，我们将对此数据集进行清理。

① 首先注意到country这一列存在一些空值，对于一部电影来说，它来自哪个国家显然不是非常重要的，或者说它无法给我们提供更多的有用的信息，所以我们对空值进行填充 Not Know：

我们首先对country进行文本归类，发现有5个‘空白值’：

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7gGszDgZ-1601226085578)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1601223831921.png)]$

选中空白值将其更改为Don’t Know

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LPT0OOJh-1601226085585)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1601224065322.png)]$

填充完成。

② 在处理数据时，不必要的空格可能会对我们处理的精度带来偏差，此时我们使用

移除首尾空格的功能来规范数据：（必要时可收起连续空白）

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Cy2r2HP5-1601226085594)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1601224079741.png)]$

③ 若我们认为缺少上映时间以及导演信息的行是无价值即不被需要的，我们希望将其去除：

首先将所有数据按照每列空值进行归类：

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Y7Uhd9sf-1601226085597)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1601224086002.png)]$

可以看到缺少导演信息的以及缺少上映时间的对象分别有104和108个，分别将它们打上星标和标记：

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BYpegpa7-1601226085598)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1601224092605.png)]$

之后先选出所有加上星标的对象即缺少上映时间的对象，再在其中选出加上标记的对象即缺少导演的对象，之后将所有匹配的对象进行移除即可。

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-q5nLD3lv-1601226085601)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1601224097102.png)]$

以上就是我们组所做的简单的数据清理操作。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。