OpenRefine数据清洗实战

一、下载安装

1、下载OpenRefine

官网:http://OpenRefine.org
在这里插入图片描述

2、安装OpenRefine

解压后双击运行 openrefine.exe。如果电脑上没有Java环境,会自动跳转到浏览器下载Java界面
在这里插入图片描述
点击 同意并开始免费下载,然后安装Java
在这里插入图片描述
到这儿环境配置好了,重新双击 openrefine.exe 运行,会启动程序并自动跳转到浏览器OpenRefine主页面
在这里插入图片描述
在这里插入图片描述

二、运行OpenRefine对数据查看、清洗、导出

选择本地存储文件,以水利局输沙率文件作为今天的测试数据吧,内容如图所示
在这里插入图片描述

  1. 启动OpenRefine,在浏览器中打开运行界面
    在这里插入图片描述

  2. 单击 Create Project 中的 选择文件按钮,然后选择桌面上的“实测悬移质输沙率成果表_利津(三)40108400_2019_9.csv”文件,然后点击 next 按钮,可以查看已经导入的文件内容了在这里插入图片描述

3.点击右上角的 Create Project,进入到数据记录的显示界面,如图所示
在这里插入图片描述在这里插入图片描述

4.选择菜单栏中的下拉箭头,可以对每一列数据进行清洗和转换,如图所示
在这里插入图片描述

5.如果要对数据进行过滤,可以选择 Facet 下的 Text facet 命令,如图所示
在这里插入图片描述

6.在左边区域 Facet/Filter 下可以看到内容分组的结果,有助于用户对数据进行分析
在这里插入图片描述

7.如果要对显示的数据继续查询,例如,想要查看2020年的某一条数据,可以选择这一组,就过滤了整个数据表,在屏幕上只显示这一条数据
在这里插入图片描述
8.如果要对数据进行编辑,可以单击每一行右侧的Edit按钮,对数据进行修改,如下图
在这里插入图片描述
将日期12改成9,修改完成后单击Apply按钮进行保存,如下图
在这里插入图片描述
在这里插入图片描述
9.导出数据,选择Export菜单中的Templating选项,如下图所示:
在这里插入图片描述
10.在网页中查看生成的数据,如下图
在这里插入图片描述

11.单击Export按钮,即可输出数据保存成.txt格式的文件,如下图
在这里插入图片描述

三、Excel有效性分析

1.打开Excel,将txt中的内容,复制粘贴到Excel第一列中,如下图
在这里插入图片描述
2.选中第一列数据,选择“数据”菜单,找到“数据验证”选项,在弹出的“数据验证”对话框中分别设置“验证条件”和“最大值”和“最小值”
在这里插入图片描述
3.设置完成后,选择“数据验证”下拉列表中的“圈释无效数据”选项,会看到表格中的无效数据用椭圆圈注,如下图所示

在这里插入图片描述

四、Excel数据分析并清除无效数据

1.打开Excel,输入原始数据
2.选中所有数据单元格区域,单击“数据”选项卡中的“删除重复值”按钮,如下图所示
在这里插入图片描述
3.在弹出的“删除重复项”对话框中选择“全选”按钮,如下图
在这里插入图片描述4.执行完删除重复项操作后,如下图所示
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值