数据清洗工具 OpenRefine简介

OpenRefine简介

目前有三款免费的数据清洗工具:OpenRefine,Weka,Data Wrangler。下面主要介绍OpenRefine。

● OpenRefine前身是谷歌公司(Google) 开发的数据清洗工具GoogleRefine,
随后于2012年开放源代码,改为现在的OpenRefine
● 一款基于计算机浏览器的数据清洗软件
● 在数据清洗、数据探索以及数据转换方面非常有效的一个格式化工具

●它是一个开源的网络应用,可以在计算机中直接运行,这样可以避开上传指
定信息到外部服务器的问题
●它类似于传统Excel处理软件,但是工作方式更像是数据库,以列和字段的
方式工作,而不是以单元格的方式工作
●下载地址: http://openrefine.org/download.html

OpenRefine操作界面

在这里插入图片描述

OpenRefine数据清洗案例

OpenRefine运行

解压下载的文件后,直接打开.exe应用程序:
在这里插入图片描述
然后会出现以下命令行:
在这里插入图片描述
稍等片刻便会自动弹出默认浏览器显示OpenRefine,OpenRefine使用的是计算机的3333接口,所以如果没有自动弹出也没事,可以直接在浏览器输入127.0.0.1:3333,关掉OpenRefine可以使用Ctrl+C,也可以直接关闭浏览器。
在这里插入图片描述
下面从以下几个方面对OpenRefine进行介绍:
在这里插入图片描述

配置语言

可以点击Language Settings进行语言选择:选择简体中文
在这里插入图片描述

新建项目

新建项目:在OpenRefine中导入数据集

支持多种格式的数据文件,如:
TSV、CSV、 JSON、MS Excel文件(包括XLS和XLSX文件) 、logs. 开放文
档格式(Open Document Format,ODF)以及spreadsheets 、XML和资
源描述框架(Resource Description Framework, RDF)等

多种导入数据方式:
本地计算机:从本地选择文件导入
网址:直接从网上的数据源导入数据
剪贴板:直接将数据进行复制粘贴
Google Data:提供Google Spreadsheet或者Fusion Table接口
在这里插入图片描述

导入数据

点击新建项目,导入数据
在这里插入图片描述

数据展示
  1. 数据的总行数
  2. 显示选项
  3. 列名称:如Record ID
  4. 具体数据

在这里插入图片描述

导出项目

点击右上角“导出”,选择“导出项目”

在这里插入图片描述

撤销重做

进行多步操作之后,若要恢复到操作之前,可在撤销/重做中进行,蓝色选中部分就是要撤销的操作:

在这里插入图片描述

OpenRefine Expression Language(GREL)

●GREL语言为OpenRefine的内建语言
●可与正则表达式结合进行数据转换
●GREL两种基本的函数格式为:
functionName(arg0, arg1, …)
arg0.functionName(arg1, …)

字符串操作
●startsWith(string s, string sub):判断string s是否以string sub为起始字符串,
返回布尔类型
例如:startsWith( “food” ,“foo” )返回true
●endsWith(string S, string sub):判断string s是否以string sub为终止字符串,返回布尔类型
例如:endsWith( “food” ,“ood” )返回true
●contains(string s, string sub);判断string s是否包含string sub字符串,返回布尔类型
例如:contains( “food”,"oo” )返回true
●toLowercase(string s):将s转换为小写
●toUppercase(string s):将s转换为大写
●toTitlecase(string s):将s转换为每个词的首字母大写
例如:toTitlecase( “Once upon a midnight dreary” )返回Once Upon A Midnight Dreary
查找替换
●indexOf(string s, string sub):返回子字符串第- -次出现在s中的字符位置, 如果没有,返回-1
例如:indexOf(“internationalization”, “nation”) returns 5
●lastIndexOf(string s, string sub):返回子字符串最后一次出现在s中的字符位置,如果没有,返回-1
例如:lastlndexOf( “parallel” ,“a” )返回3
●replace(string s, string f, string r):返回将s中的f替换为r之后的字符串
例如:replace(“The cow jumps over the moon and moos”, “o0”, “ee”)返回The cow jumps over the meen and mees.
子字符串
●substring(s, number from, optional number to)返回起始位置为number from,终止位置为optional number to的子字符串,如果没有终止位置,直到字符串结束
例如:substring( “profound” , 3)返回found
substring( “profound” , 2, 4)返回of

声明:本博文内容为学习完数据酷客中的数据清洗课程后所总结,建议大家学习数据酷客上面的课程。

### 回答1: OpenRefine是一种免费、开源的数据清洗和转换工具,它最初名为Google Refine,是由Google赞助开发的。OpenRefine可以导入多种格式的数据,如CSV、TSV、Excel、JSON等,然后可以执行各种数据清理和转换操作,例如拆分单元格、合并列、重命名列、去重、筛选和转换数据类型等。OpenRefine还具有强大的文本处理功能,例如正则表达式搜索和替换、字符串分割和连接等。此外,OpenRefine还可以执行高级操作,如对数据进行聚合和分组、执行自定义脚本等。总之,OpenRefine是一个非常实用的工具,可以帮助人们更轻松地处理和转换各种数据。 ### 回答2: OpenRefine是一款开源的数据清洗工具,它能够帮助用户处理、清理和转换大规模数据集。OpenRefine的主要功能包括数据清洗、数据转换和数据整合等。 在数据清洗方面,OpenRefine提供了一系列的数据处理方法,如删除重复项、填充缺失值、修改数据格式等。用户可以利用这些功能快速检测和修复数据中的错误和异常。 在数据转换方面,OpenRefine支持多种数据格式之间的转换。用户可以将数据集从一个格式转换为另一个格式,使得数据能够在不同的应用程序中进行交互和使用。 在数据整合方面,OpenRefine可以将来自不同来源的数据进行整合。用户可以导入多个数据集,并通过OpenRefine进行数据清洗和整合,从而创建一个统一的数据集。同时,OpenRefine还提供了强大的筛选和搜索功能,使用户能够更好地理解和分析数据。 OpenRefine的使用非常简单,它提供了一个直观的用户界面和大量的操作支持。用户可以通过图形化界面进行操作,也可以使用OpenRefine提供的GREL(General Refine Expression Language)语言进行高级数据转换和整合。 总结来说,OpenRefine是一款功能强大、易于使用的数据清洗工具,它为用户提供了丰富的功能和灵活的操作方式,帮助用户处理和整理数据,使数据变得更加准确、一致和可用。 ### 回答3: OpenRefine(前身为Google Refine)是一款开源的数据清理工具,旨在帮助用户整理和清洗大量的数据。它提供了一个简单易用的用户界面,使得数据清理变得更加高效和便捷。 OpenRefine主要通过自动化和人工交互的方式对数据进行清洗和整理。它支持导入多种格式的数据,例如CSV、Excel和JSON等。用户可以通过OpenRefine快速分析和检测数据中的错误、重复、格式问题等,并进行相应的处理。 OpenRefine的主要功能包括数据过滤、数据转换、数据重构和数据修复等。用户可以使用过滤功能,根据自定义的规则筛选和过滤数据,以便快速定位和处理有问题的记录。数据转换功能可以对数据进行格式转换、拆分和合并等操作,使用户能够更方便地处理多样化的数据需求。数据重构功能则允许用户根据特定的模式和规则对数据进行重组和转换。如果数据中存在错误或者缺失,OpenRefine还提供了修复功能,帮助用户快速修复数据中的问题。 使用OpenRefine还可以进行数据可视化,其内置的图表和统计功能可以帮助用户更好地理解数据的分布和趋势。 总之,OpenRefine是一款强大的数据清理工具,通过其自动化和人工交互的方式,可以帮助用户快速有效地处理和清洗大量的数据,提高数据质量和可用性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值