OpenRefine数据清洗实战

一、下载安装

1、下载OpenRefine

官网:http://OpenRefine.org
在这里插入图片描述

2、安装OpenRefine

解压后双击运行 openrefine.exe。如果电脑上没有Java环境,会自动跳转到浏览器下载Java界面
在这里插入图片描述
点击 同意并开始免费下载,然后安装Java
在这里插入图片描述
到这儿环境配置好了,重新双击 openrefine.exe 运行,会启动程序并自动跳转到浏览器OpenRefine主页面
在这里插入图片描述
在这里插入图片描述

二、运行OpenRefine对数据查看、清洗、导出

选择本地存储文件,以水利局输沙率文件作为今天的测试数据吧,内容如图所示
在这里插入图片描述

  1. 启动OpenRefine,在浏览器中打开运行界面
    在这里插入图片描述

  2. 单击 Create Project 中的 选择文件按钮,然后选择桌面上的“实测悬移质输沙率成果表_利津(三)40108400_2019_9.csv”文件,然后点击 next 按钮,可以查看已经导入的文件内容了在这里插入图片描述

3.点击右上角的 Create Project,进入到数据记录的显示界面,如图所示
在这里插入图片描述在这里插入图片描述

4.选择菜单栏中的下拉箭头,可以对每一列数据进行清洗和转换,如图所示
在这里插入图片描述

5.如果要对数据进行过滤,可以选择 Facet 下的 Text facet 命令,如图所示
在这里插入图片描述

6.在左边区域 Facet/Filter 下可以看到内容分组的结果,有助于用户对数据进行分析
在这里插入图片描述

7.如果要对显示的数据继续查询,例如,想要查看2020年的某一条数据,可以选择这一组,就过滤了整个数据表,在屏幕上只显示这一条数据
在这里插入图片描述
8.如果要对数据进行编辑,可以单击每一行右侧的Edit按钮,对数据进行修改,如下图
在这里插入图片描述
将日期12改成9,修改完成后单击Apply按钮进行保存,如下图
在这里插入图片描述
在这里插入图片描述
9.导出数据,选择Export菜单中的Templating选项,如下图所示:
在这里插入图片描述
10.在网页中查看生成的数据,如下图
在这里插入图片描述

11.单击Export按钮,即可输出数据保存成.txt格式的文件,如下图
在这里插入图片描述

三、Excel有效性分析

1.打开Excel,将txt中的内容,复制粘贴到Excel第一列中,如下图
在这里插入图片描述
2.选中第一列数据,选择“数据”菜单,找到“数据验证”选项,在弹出的“数据验证”对话框中分别设置“验证条件”和“最大值”和“最小值”
在这里插入图片描述
3.设置完成后,选择“数据验证”下拉列表中的“圈释无效数据”选项,会看到表格中的无效数据用椭圆圈注,如下图所示

在这里插入图片描述

四、Excel数据分析并清除无效数据

1.打开Excel,输入原始数据
2.选中所有数据单元格区域,单击“数据”选项卡中的“删除重复值”按钮,如下图所示
在这里插入图片描述
3.在弹出的“删除重复项”对话框中选择“全选”按钮,如下图
在这里插入图片描述4.执行完删除重复项操作后,如下图所示
在这里插入图片描述

  • 10
    点赞
  • 56
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: OpenRefine是一种免费、开源的数据清洗和转换工具,它最初名为Google Refine,是由Google赞助开发的。OpenRefine可以导入多种格式的数据,如CSV、TSV、Excel、JSON等,然后可以执行各种数据清理和转换操作,例如拆分单元格、合并列、重命名列、去重、筛选和转换数据类型等。OpenRefine还具有强大的文本处理功能,例如正则表达式搜索和替换、字符串分割和连接等。此外,OpenRefine还可以执行高级操作,如对数据进行聚合和分组、执行自定义脚本等。总之,OpenRefine是一个非常实用的工具,可以帮助人们更轻松地处理和转换各种数据。 ### 回答2: OpenRefine是一款开源的数据清洗工具,它能够帮助用户处理、清理和转换大规模数据集。OpenRefine的主要功能包括数据清洗、数据转换和数据整合等。 在数据清洗方面,OpenRefine提供了一系列的数据处理方法,如删除重复项、填充缺失值、修改数据格式等。用户可以利用这些功能快速检测和修复数据中的错误和异常。 在数据转换方面,OpenRefine支持多种数据格式之间的转换。用户可以将数据集从一个格式转换为另一个格式,使得数据能够在不同的应用程序中进行交互和使用。 在数据整合方面,OpenRefine可以将来自不同来源的数据进行整合。用户可以导入多个数据集,并通过OpenRefine进行数据清洗和整合,从而创建一个统一的数据集。同时,OpenRefine还提供了强大的筛选和搜索功能,使用户能够更好地理解和分析数据。 OpenRefine的使用非常简单,它提供了一个直观的用户界面和大量的操作支持。用户可以通过图形化界面进行操作,也可以使用OpenRefine提供的GREL(General Refine Expression Language)语言进行高级数据转换和整合。 总结来说,OpenRefine是一款功能强大、易于使用的数据清洗工具,它为用户提供了丰富的功能和灵活的操作方式,帮助用户处理和整理数据,使数据变得更加准确、一致和可用。 ### 回答3: OpenRefine(前身为Google Refine)是一款开源的数据清理工具,旨在帮助用户整理和清洗大量的数据。它提供了一个简单易用的用户界面,使得数据清理变得更加高效和便捷。 OpenRefine主要通过自动化和人工交互的方式对数据进行清洗和整理。它支持导入多种格式的数据,例如CSV、Excel和JSON等。用户可以通过OpenRefine快速分析和检测数据中的错误、重复、格式问题等,并进行相应的处理。 OpenRefine的主要功能包括数据过滤、数据转换、数据重构和数据修复等。用户可以使用过滤功能,根据自定义的规则筛选和过滤数据,以便快速定位和处理有问题的记录。数据转换功能可以对数据进行格式转换、拆分和合并等操作,使用户能够更方便地处理多样化的数据需求。数据重构功能则允许用户根据特定的模式和规则对数据进行重组和转换。如果数据中存在错误或者缺失,OpenRefine还提供了修复功能,帮助用户快速修复数据中的问题。 使用OpenRefine还可以进行数据可视化,其内置的图表和统计功能可以帮助用户更好地理解数据的分布和趋势。 总之,OpenRefine是一款强大的数据清理工具,通过其自动化和人工交互的方式,可以帮助用户快速有效地处理和清洗大量的数据,提高数据质量和可用性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值