
数据清洗
数据小刀
运营商小虫
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
《Using OpenRefine》翻译~7
上一篇:《Using OpenRefine》翻译~6点2-数据透视OpenRefine最常用的功能可能就是数据透视了。数据透视并不改变数据,但是可以让你获得数据集的有用信息。你可以把数据透视看作是多方面查看数据的方法,就像从不同的角度观察宝石一样。数据透视可以获得数据中一个变化后的子集,比如只显示某个参数要求下的行。本点中,我们将学习如何按照你的要求或者数据具体的值来透视数据:对字符串翻译 2017-05-22 12:16:52 · 1595 阅读 · 0 评论 -
《Using OpenRefine》翻译~19(完结)
上一篇:《Using OpenRefine》翻译~18GREL 正则表达式的强大功能并不限于数据查找,还可以用作数据管理。GREL提供了利用正则表达式完成函数操作的可能。GREL是用来操作数据的简单函数语言。其是OpenRefne内置的,并且包含函数参数设置。前几章我们已经简要的接触过了,这里我们将教你如何构建你自己的GREL表达式。 数据转换在你需要翻译 2017-06-03 11:42:30 · 6508 阅读 · 0 评论 -
《Using OpenRefine》翻译~6
第二章:分析和修改数据本章中,我们将更加深入的学习OpenRefine的数据分析和修改功能,主要的内容包括下面六点:*点1-数据排序*点2-数据透视*点3-重复检测*点4-应用一个文本过滤*点5-使用简单单元格转换*点6-移除匹配行和第一章:初识OpenRefine一样,本章可以让读者按照自己的需要或爱好选择阅读顺序,并不需要按照顺序阅读。按照顺序阅读也可以,但并不翻译 2017-05-21 10:05:26 · 1581 阅读 · 0 评论 -
《Using OpenRefine》翻译~5
上一篇:《Using OpenRefine》翻译~4要点7:获取更多的运行内存最后一点,我们将学习如何如何分配更多的运行内存以操作更大的数据集。对于大数据集,你会发觉OpenRefine会运行缓慢或者提示内存不够。这表明你需要分配更多的内存给OpenRefine。和我们上面学习的内容相比,这个内容稍显复杂,因为这需要牵扯到一点底层修改。但是不要担心:我们会指导你如何去做。具体的操作步骤翻译 2017-05-21 10:01:15 · 1703 阅读 · 0 评论 -
《Using OpenRefine》翻译~4
上一篇:《Using OpenRefine》翻译~3要点5:使用项目操作历史本点中,你将学习到如何返回到任一个项目历史操作点,并且学习如何在项目重新打开后查看历史操作信息。OpenRefine一个特别有用的功能是可以在项目创建后保存所有的操作步骤。这也就意味着你不需要害怕做数据变换尝试:你可以随意按照自己的想法变换数据,因为一旦你发觉做错了(即使是几个月前做的),你也可以撤销该操作以恢翻译 2017-05-20 14:50:27 · 1726 阅读 · 0 评论 -
《Using OpenRefine》翻译~16
上一篇:《Using OpenRefine》翻译~15•点5-抽取单名称项解析服务在你的数据集中只包含单个条目时工作良好,比如人名、国家或者工种。但是,如果你的列内容包含的是一小段文字时解析往往不奏效,因为其只能在数据库中搜索单个条目。幸运的是,另一种技术named-entity extraction(抽取单名称项)可以用的上。抽取算法会对包含多个单元素(比如人名,地址,值,组织或其他翻译 2017-05-31 08:55:16 · 5429 阅读 · 0 评论 -
《Using OpenRefine》翻译~17
上一篇:《Using OpenRefine》翻译~16第五章:正则表达式和GRELOpenRefine中有两个很强大的工具: regular expressions(正则表达式) 和 GREL.Regular expressions是我们在处理大量数据时用来匹配和替换文本的有效工具。General Refine Expression Language,GREL,翻译 2017-06-01 12:08:44 · 5971 阅读 · 0 评论 -
《Using OpenRefine》翻译~3
上一篇:《Using OpenRefine》翻译~2要点4:操纵列本点中,你将学习列在OpenRefine如何隐藏和展开、按需要转换、以及重命名和删除。列是OpenRefine中的基本元素:其是具有同一属性的成千上万的值的集合,可以按照很多方法查看处理。 列隐藏和展开默认情况下,所有的列在OpenRefine中都是展开的,大都数情况下显得数据太冗长复杂了。如果你想翻译 2017-05-19 13:34:08 · 1826 阅读 · 0 评论 -
《Using OpenRefine》翻译~2
上一篇:《Using OpenRefine》翻译~1OpenRefine支持的文件类型以下是部分OpenRefine支持的文件格式:●csv、tsv及其他*sv●xls/xlsx、cdf、ods●JSON●XML●行文本格式(比如log文件)如果你需要打开其他格式文件,你可以通过OpenRefine扩展功能打开。创建OpenRefine项目十翻译 2017-05-18 21:00:36 · 3127 阅读 · 2 评论 -
《Using OpenRefine》翻译~1
总览:无论是现今的大数据还是企业内部的小数据,都存在一些普遍的问题,如数据格式不对需要转换,一个单元格内包含多个含义的内容,包含重复项等等,虽然我们也可以使用excel解决,但是excel天生有诸多限制,比如其为直接对数据进行操作,容易导致误操作;数据量大会处理缓慢;透视表功能太过简单;无法进行高级的数据分类分析。而OpenRefine很好的解决了以上问题,最重要的一点是它还是免费的!!翻译 2017-05-18 08:41:53 · 5387 阅读 · 0 评论 -
《Using OpenRefine》翻译~15
上一篇:《Using OpenRefine》翻译~14•点3-增加解析服务本小点中,你应该已经安装好了RDF扩展包。如果没有请参考上一点。如果已经装好了,那么你可能会对RDF 和SPARQL代表什么意思感到疑惑,因为这两个词汇一只出现,现在让我们解释一下:Resource Description Framework (RDF) 是一种可以被机器读取的数据模型。因为人类能读懂互联网上的H翻译 2017-05-30 13:17:54 · 5717 阅读 · 1 评论 -
《Using OpenRefine》翻译~14
上一篇:《Using OpenRefine》翻译~13第四章:数据集关联数据集之间并不是互相独立的。总在某些时候,可能在你预想不到的地方,数据之间互相关联,比如,如果你的数据集有一列是关于国家的数据,那么这列就和国家地理数据库有关联。一个书籍数据库中关于作者的列就和人物传记数据库有关联。所有的数据集都有这种联系,但是可能你并没有觉察到,有时候计算机也没有。举个例子,书籍数据库中某条关于Th翻译 2017-05-29 11:06:18 · 5815 阅读 · 0 评论 -
《Using OpenRefine》翻译~13
上一篇:《Using OpenRefine》翻译~12点7:行列转换有时候数据并不是以你料想的方式在行和列中分布。确实,有很多种数据排布方式,这取决于具体的情况。比如在Powerhouse Museum数据集中,有一些很多维度的列:Height, Width, Depth, Diameter和Weight.但是,并不是所有这些列中都有数据,所以如果按照这种方式排布耗时耗力。一个替代方法是将翻译 2017-05-28 09:49:53 · 5356 阅读 · 0 评论 -
《Using OpenRefine》翻译~12
上一篇:《Using OpenRefine》翻译~11点4:单元格值转换在第二章:分析和修改数据中,我们学习到OpenRefine可以自动修改一列的单元格内容,比如去除多余空格。上一点中,我们学习到聚类是另一种修改列单元格内容的方法。然而,以上方法都仅仅是单元格值转换通用方法的一部分。你可以通过不同的稍显复杂的方式修改单元格值。虽然这看起来像是EXCEL公式,但是你会惊讶于其功能的强大翻译 2017-05-27 19:08:22 · 1700 阅读 · 0 评论 -
《Using OpenRefine》翻译~11
上一篇:《Using OpenRefine》翻译~10点3:相似单元格聚类多亏了OpenRefine,我们并不需要担心数据创建过程中产生的一些问题。如果你在分割多值单元格后对分类进行了分析,你会发现同样的分类并不一定有相同的拼写。比如,Agricultural Equipment 和 Agricultural equipment(大小写不同),Costumes 和 Costume(单复翻译 2017-05-26 11:11:42 · 1482 阅读 · 0 评论 -
《Using OpenRefine》翻译~10
上一篇:《Using OpenRefine》翻译~9第三章:高级数据操作上一章中,我们介绍了OpenRefine的一些基本的操作。然而这些仅仅提供了你初级的数据分析处理技能。只有OpenRefine高级特性才能让你领略其真正的强大之处,本章就将介绍这些内容:• 点1:对多值单元格的处理• 点2:行模式和记录模式的转换• 点3:相似单元格聚类• 点4:单元格值转换•翻译 2017-05-25 09:36:37 · 1460 阅读 · 0 评论 -
《Using OpenRefine》翻译~8
上一篇:《Using OpenRefine》翻译~7定制透视我们现在已经学习了两种主要的透视方法-文本透视和数字透视。但其实还有很多透视方法存在,你甚至可以按照你的想法自如的透视数据。定制透视就可以让你做到这点,无论是文本类型(比如透视字符串的首字母)或者数字类型(比如透视数字的平方根)。当然,你需要对General Refine Expression language(openr翻译 2017-05-23 10:04:25 · 1540 阅读 · 0 评论 -
《Using OpenRefine》翻译~9
上一篇:《Using OpenRefine》翻译~8点4-应用一个文本过滤本点中,我们将学习如何使用文本过滤来寻找符合某个条件的值。当你想寻找那些匹配某个特定字符串的行时,最简单的方法是使用文本过滤功能。让我们以一个简单的例子开始。假如你想找出Object Title列中所有和美国相关的所有标题。选择Object Title| Text flter,我们将在左侧翻译 2017-05-24 08:21:40 · 1743 阅读 · 0 评论 -
《Using OpenRefine》翻译~18
上一篇:《Using OpenRefine》翻译~17锚符有时候,你不是要表达有多少字符被匹配,而是想确定字符串哪个位置被匹配。这时候就可以使用锚符anchors。补字号^表示必须在开始匹配,美元符号$表示必须在最后匹配。(不要与方括号[]内的补字符^搞混,这个表示的是否定意义,这和括号外的^意义不一样)。另外,\b可以指定匹配的区间的开始和结束。• ^\d匹配开始为一个数字。翻译 2017-06-02 15:27:47 · 5308 阅读 · 0 评论