1、关于数据质量的讨论
查阅资料后,我们得知数据质量评估的标准主要为以下6个方面:
评估标准 | 评估的方面 | 解决方法距离 |
---|---|---|
完整性 | 评估哪些数据丢失了或者哪些数据不可用 | 去除不必要空格和空值 |
一致性 | 评估哪些数据值提供了冲突信息 | 防止冲突,比如加锁 |
规范性 | 评估哪些数据是以非标准格式存储的 | 尽量在输入时保证规范 |
准确性 | 评估哪些数据不能正确的描述对象的属性或已经过期 | 对数据进行去除提高准确性 |
唯一性 | 评估哪些数据记录是重复的记录 | 对重复数据进行标记 |
及时性 | 评估关键数据是否及时传送到目标应用 | 及时更新关键数据 |
2、数据质量处理工具的下载和安装
我们小组选择的数据质量处理工具是OpenReFine。
3、运行实例数据的数据清理过程
初始数据如下:
其中包含导演、演员、预算、电影评分以及上映时间等信息,我们将对此数据集进行清理。
① 首先注意到country这一列存在一些空值,对于一部电影来说,它来自哪个国家显然不是非常重要的,或者说它无法给我们提供更多的有用的信息,所以我们对空值进行填充 Not Know:
我们首先对country进行文本归类,发现有5个‘空白值’:
选中空白值将其更改为Don’t Know
填充完成。
② 在处理数据时,不必要的空格可能会对我们处理的精度带来偏差,此时我们使用
移除首尾空格的功能来规范数据:(必要时可收起连续空白)
③ 若我们认为缺少上映时间以及导演信息的行是无价值即不被需要的,我们希望将其去除:
首先将所有数据按照每列空值进行归类:
可以看到缺少导演信息的以及缺少上映时间的对象分别有104和108个,分别将它们打上星标和标记:
之后先选出所有加上星标的对象即缺少上映时间的对象,再在其中选出加上标记的对象即缺少导演的对象,之后将所有匹配的对象进行移除即可。
以上就是我们组所做的简单的数据清理操作。