数据清洗工具OpenRefine

转载 2016年08月30日 16:49:40
作者:chszs,转载需注明。博客主页:http://blog.csdn.net/chszs

数据经常被称为一座金矿,尤其是在当今数据驱动的经济环境下更是如此。
怎样把数据集在OpenRefine中进行转换,优化数据的质量以便于在真实场景下重用它们。

一、介绍OpenRefine


我们来看一个残酷的现实:你的数据是杂乱无章的。错误会散步到你的大数据集中,无论你有多么细心,错误总是存在。数据量越大,错误越多。

正确且清晰地认识以上的现状,是我们开始使用OpenRefine的前提。于是有了数据质量的说法。
下面先熟悉三个基础概念。

数据剖析Data Profiling:也叫做数据考古(Data Archeology),是数据集(Data Set)内部为达一致性、单值性和逻辑性而进行的数值质量的统计分析及评估。数据剖析是Olson于2003年提出的概念,使用分析技术来发现正确的、结构化的、有内容、有质量的数据。换句话说,它是评估你的数据和信息的当前状态以及包含了多少错误的方法。

数据清洗Data Cleaning:是尝试通过移除空的数据行或重复的数据行、过滤数据行、聚集或转换数据值、分开多值单元等,以半自动化的方式修复错误数据的过程。数据清洗是一个反复的过程,不可能在几天内完成,只有不断的发现问题,解决问题。对于是否过滤,是否修正一般要求客户确认。

IDTs:Interactive Data Transformation tools,交互数据转换工具,它可以对大数据进行快速、廉价的操作,使用单个的集成接口。

OpenRefine就是这样的IDT工具,可以观察和操纵数据的工具。它类似于传统Excel的表格处理软件,但是工作方式更像是数据库,以列和字段的方式工作,而不是以单元格的方式工作。这意味着OpenRefine不仅适合对新的行数据进行编码,而且功能还极为强大。

二、安装OpenRefine

要学习OpenRefine,首先需要下载最新版本的OpenRefine。
下载地址:http://openrefine.org/
OpenRefine最早是众所周知的Freebase Gridworks,随后又变成Google Refine,几年后又被社区接管,在2012年10月变成了彻底开源的OpenRefine。
OpenRefine 2.6版是它改名为OpenRefine的第一个发行版本。
如果你对OpenRefine的开发版感兴趣,可以访问:https://github.com/OpenRefine.OpenRefine
OpenRefine基于Java环境,因此是跨平台的。

OpenRefine 2.6版目前还处于Beta1版,也是所谓的开发版,不适合在生产环境中使用。如果要选择稳定版,那么还是该下载Google Refine 2.5版。

1、OpenRefine在Windows的安装
1)下载ZIP包,地址:https://github.com/OpenRefine/OpenRefine/releases/download/2.5/google-refine-2.5-r2407.zip ;
2)解压到某个目录;
3)要运行OpenRefine,双击openrefine.exe文件。


2、OpenRefine在Mac的安装

1)下载DMG文件:https://github.com/OpenRefine/OpenRefine/releases/download/2.5/google-refine-2.5-r2407.dmg ;
2)打开磁盘镜像,拖动OpenRefine的图标到Applications目录;
3)双击图标以启动OpenRefine。

3、OpenRefine在Linux的安装
1)下载gzipped包:https://github.com/OpenRefine/OpenRefine/releases/download/2.5/google-refine-2.5-r2407.tar.gz ;
2)解压到当前用户的home目录;
3)在终端命令行环境,键入./refine以启动OpenRefine。



数据清洗工具OpenRefine

数据清洗工具OpenRefine作者:chszs,转载需注明。博客主页:http://blog.csdn.net/chszs数据经常被称为一座金矿,尤其是在当今数据驱动的经济环境下更是如此。怎样把数据...
  • chszs
  • chszs
  • 2014年02月27日 13:39
  • 25083

《Using OpenRefine》翻译~1

总览: 无论是现今的大数据还是企业内部的小数据,都存在一些普遍的问题,如数据格式不对需要转换,一个单元格内包含多个含义的内容,包含重复项等等,虽然我们也可以使用excel解决,但是excel天生有诸多...
  • loveyy1010
  • loveyy1010
  • 2017年05月18日 08:41
  • 870

RDF Refine(Open Refine + RDF Refine)使用笔记

RDF Refine(Open Refine + RDF Refine)使用示例 Open Refine(原名 Google Refine)是一个用来管理杂乱数据,进行整理与扩展的工具。如今的最新版是...
  • rk2900
  • rk2900
  • 2014年09月10日 14:38
  • 8241

数据清洗工具OpenRefine

数据清洗工具OpenRefine作者:chszs,转载需注明。博客主页:http://blog.csdn.net/chszs数据经常被称为一座金矿,尤其是在当今数据驱动的经济环境下更是如此。怎样把数据...
  • chszs
  • chszs
  • 2014年02月27日 13:39
  • 25083

《Using OpenRefine》翻译~19(完结)

上一篇:《Using OpenRefine》翻译~18 GREL  正则表达式的强大功能并不限于数据查找,还可以用作数据管理。GREL提供了利用正则表达式完成函数操作的可能。GRE...
  • loveyy1010
  • loveyy1010
  • 2017年06月03日 11:42
  • 306

第二部分:高级抓取(第七章、清理脏数据)

第二部分:高级抓取(第七章、清理脏数据) 你已经奠定了一些网页抓取的基础:现在到了有趣的部分。在现在之前,我们的网络爬虫一直都比较愚蠢 。他们无法检索信息,除非服务器会立即呈现给他们一个很...
  • qq_15297487
  • qq_15297487
  • 2015年08月17日 13:01
  • 1315

完整全面的Java资源库(包括构建、操作、代码分析、编译)

完整全面的java资源库(包括构建、操作、代码分析、编译器、数据库、社区等等)构建 这里搜集了用来构建应用程序的工具。 Apache Maven:Maven使用声明进行构建并进行依赖管理,...
  • bfqiwbifj
  • bfqiwbifj
  • 2016年05月09日 19:35
  • 1521

ETL数据清洗工具总结

【国外】 1. datastage 点评:最专业的ETL工具,价格不菲,使用难度一般 下载地址:ftp://ftp.seu.edu.cn/Pub/Develop ... taStage.v7.5...
  • xiaoshunzi111
  • xiaoshunzi111
  • 2016年07月11日 16:18
  • 6523

数据清洗工具kettle

kettle简介:          kettle是pentho的一个组件,用来做数据清洗的,现在已经支持很多数据库以及文件格式,也包括大数据hdfs等。有图形界面,也可以在linux下去调用,用起...
  • shenchuanlen
  • shenchuanlen
  • 2015年05月26日 09:47
  • 5433

Android应用内社区SDK技术架构浅析

简单来说,友盟的微社区就是一款帮助开发者在应用中快速搭建一个社区( 类似于新浪微博、朋友圈 )的产品。在很多应用中,开发商往往都会需要一个用户之间以及用户与开发商之间互动的社区,用户往往又会在社区里选...
  • bboyfeiyu
  • bboyfeiyu
  • 2015年05月08日 18:11
  • 4801
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:数据清洗工具OpenRefine
举报原因:
原因补充:

(最多只允许输入30个字)