DataMiner

1、关于数据质量的讨论

查阅资料后,我们得知数据质量评估的标准主要为以下6个方面:

评估标准评估的方面解决方法距离
完整性评估哪些数据丢失了或者哪些数据不可用去除不必要空格和空值
一致性评估哪些数据值提供了冲突信息防止冲突,比如加锁
规范性评估哪些数据是以非标准格式存储的尽量在输入时保证规范
准确性评估哪些数据不能正确的描述对象的属性或已经过期对数据进行去除提高准确性
唯一性评估哪些数据记录是重复的记录对重复数据进行标记
及时性评估关键数据是否及时传送到目标应用及时更新关键数据

2、数据质量处理工具的下载和安装

我们小组选择的数据质量处理工具是OpenReFine。

3、运行实例数据的数据清理过程

初始数据如下:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-litJv4BF-1601226085575)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1601223824157.png)]

其中包含导演、演员、预算、电影评分以及上映时间等信息,我们将对此数据集进行清理。

① 首先注意到country这一列存在一些空值,对于一部电影来说,它来自哪个国家显然不是非常重要的,或者说它无法给我们提供更多的有用的信息,所以我们对空值进行填充 Not Know:

我们首先对country进行文本归类,发现有5个‘空白值’:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7gGszDgZ-1601226085578)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1601223831921.png)]

选中空白值将其更改为Don’t Know

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LPT0OOJh-1601226085585)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1601224065322.png)]

填充完成。

② 在处理数据时,不必要的空格可能会对我们处理的精度带来偏差,此时我们使用

移除首尾空格的功能来规范数据:(必要时可收起连续空白)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Cy2r2HP5-1601226085594)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1601224079741.png)]

③ 若我们认为缺少上映时间以及导演信息的行是无价值即不被需要的,我们希望将其去除:

首先将所有数据按照每列空值进行归类:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Y7Uhd9sf-1601226085597)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1601224086002.png)]

可以看到缺少导演信息的以及缺少上映时间的对象分别有104和108个,分别将它们打上星标和标记:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BYpegpa7-1601226085598)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1601224092605.png)]

之后先选出所有加上星标的对象即缺少上映时间的对象,再在其中选出加上标记的对象即缺少导演的对象,之后将所有匹配的对象进行移除即可。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-q5nLD3lv-1601226085601)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1601224097102.png)]

以上就是我们组所做的简单的数据清理操作。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值