《Using OpenRefine》翻译~5

上一篇:《Using OpenRefine》翻译~4

要点7:获取更多的运行内存

最后一点,我们将学习如何如何分配更多的运行内存以操作更大的数据集。

对于大数据集,你会发觉OpenRefine会运行缓慢或者提示内存不够。这表明你需要分配更多的内存给OpenRefine。和我们上面学习的内容相比,这个内容稍显复杂,因为这需要牵扯到一点底层修改。但是不要担心:我们会指导你如何去做。具体的操作步骤根据不同的操作系统有所不同。注意:你可以分配给OpenRefine多大内存取决于你的电脑和JAVA版本是32位还是64位。如果不清楚究竟需要分配多少才合适,就试着慢慢的增加运行内存数量来看看效果(如果每次增加1G)。

Windows

Windows平台,你可以在OpenRefine的文件夹中找到openrefine.l4j.ini文件,找到以-Xmx(对于JAVA来说表示最大内存数)开始的那行,默认情况下分配内存为1024M。稍稍改大点,比如2048M。保存后下次你打开OpenRefine就能够生效。

Mac

对于Mac平台就有点复杂,因为Mac电脑的操作系统将配置文件隐藏了。首先关闭OpenRefine,按住control键然后点击OpenRefine图标,在弹出菜单中选择Show package contents,然后在Contents文件夹中找到info.plist文件并打开,然后在其中找到VMOptions项(这就是JAVA虚拟机设置项)。找到以-Xmx开头的设置项,将默认的1024M按你的需要修改,比如-Xmx 2048M。

Linux

你可能会觉得奇怪,修改运行内存在Linux中十分简单,平时你打开OpenRefine是使用命令./refine,试着使用./refine –m 2048M。这里的2048M就是想分配的内存。如果你想永久的修改运行内存,你可以在根目录中找到隐藏文件.bashrc,然后在其中添加一个alias别名即可,代码如下:

alias refine='cd path_to_refine ; ./refine -m 2048M'

这里的path_to_refine是OpenRefine的安装目录,下次你依旧只需要使用./refine命令打开OpenRefine,其自动就会分配2048M内存。

小结

通过本章内容的学习,你已经了解了OpenRefine,一种新的具有数据画像、清洗、转换等等功能的工具,现在你已经在你的电脑上安装上了OpenRefine,并且已经了解如何在创建新项目中导入数据和如何在完成操作后导出数据。行、列的运行机制你也已经了解,并且已知道如何使用项目历史记录。另外你也对内存分配进行了操作,这能够让你操控更大的数据集。

虽然在开始操作你的数据集前好好的对你的数据进行全局性的观察十分重要,但你可能已经迫不及待了。如果是这样,那么你已经对第二章:分析和修改数据做好了准备,这章中,你将学习到如何分析和修改你的数据所需要的基本操作的方方面面。


下一篇:《Using OpenRefine》翻译~6

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值