《Using OpenRefine》翻译~16

上一篇:《Using OpenRefine》翻译~15

•点5-抽取单名称项

解析服务在你的数据集中只包含单个条目时工作良好,比如人名、国家或者工种。但是,如果你的列内容包含的是一小段文字时解析往往不奏效,因为其只能在数据库中搜索单个条目。幸运的是,另一种技术named-entity extraction(抽取单名称项)可以用的上。抽取算法会对包含多个单元素(比如人名,地址,值,组织或其他一般的东西)的文本进行搜索,其不光能够抽取单项,很多算法还能够进行歧义甄别。举个例子,如果算法在文本中发现了Washington,其会尝试识别这个究竟是城市还是人名,这样就避免了必须对每个单独抽出项才能进行解析的情况发生。

OpenRefine本身并不支持抽取单名称项,但是我们可以增加抽取单名称项扩展包。在继续学习前,请先到 http://software.freeyourmetadata.org/ner-extension/下载安装,如果安装成功,那么我们将在屏幕右侧顶部看到Named-entity recognition按钮。


本小点学习中,你需要保证数据集中categories列未被分割,因为抽取单名称项会在发现记录为多内容时创建多行。如果你已经分割成多行的话会导致混乱。

查看Powerhouse Museum数据集,我们发现Descriptions列是进行抽取单名称项尝试的很好的样本,因为其包含多内容文本。如果我们想把这些内容与数据库互联,那么我们首先需要进行抽取工作。点击Descriptions列下拉菜单选择Extract named entities…对话框如下:


扩展包并不包含抽取单名称项算法,而是使用在线服务代替,就好像解析功能一样。你可以选择喜欢的解析服务。但是和解析服务不同的是,解析服务都是开放的,但是某些抽取单名称项服务却需要注册,但还是免费的,某些服务还提供中级账号,这样能够提供更多的好处,比如更快的抽取或者不限抽取数量。

DBpedia Spotlight服务不需要注册,所以能够直接使用,勾选此选项然后点击Start extraction。OpenRefine就会开始抽取进程,这需要一些时间。因此,就像我们以前介绍的一样,先对一个子集进行抽取实验会比较明智。如果你同时勾选了多个抽取服务,那么抽取速度也就和其中最慢的服务速度一样。

当抽取单名称项进程结束后,你可以看到OpenRefine 在Description列旁边创建了一个新列:DBpedia Spotlight.


在新列中,我们看到了已抽取出的项,如果是多内容单元格,则会分割成多行,你可以在行模式和记录模型之间切换。上图显示DBpedia Spotlight列中,记录162中发现了2条,记录173没有项被发现,记录184发现1项.你可以看到这些项显示为蓝色,这表明这些是链接。举个例子,如果你点击Leeds Town Hall,你就会打开相关资源的链接,这就是数据相互链接起来了,原来人类才能理解的内容现在可以被机器所理解了。

但是,你会发现有些单元格没有相关链接内容。让我们看看其他抽取服务是不是有效。这里,我们需要为这个服务添加账号。点击屏幕顶部右侧按钮Named-entityrecognition ,选择Configure API keys…. 会打开如下服务配置对话框:


举个例子,如果你想使用Zemanta来进行抽取单名称项,在对应字段中增加Application programming interface (API) ,如果你没有API,则点击configuration instructions,这会打开ZemantaAPI注册页面。所有的服务都有一个免费选项,所以你可以注册然后对数据进行尝试,而不需要付费。某些服务还有额外的配置选项,可以按照配置指导进行配置。

当你完成配置,对Description列再次尝试抽取单名称项后,你可以同时选择多个服务项了。每个服务会创建一个独立的列,所以你会得到两列:Zemanta AlchemyAPI,每一列都会有抽取项。所以多尝试下吧。

 

 

小结

本章中,我们学习了如何使互相孤立的数据集建立联系。一方面,你可以对单内容字段进行解析,这样可以使得这些单元格与URL对应,并且能够在线查询详细信息。你也可以使用内置的Freebase解析或者安装RDF扩展包 来实现对链接数据的解析。另一方面,你也可以使用扩展包进行抽取单名称项,这可以使OpenRefine对单元格内的内容进行查询,并且找到每个内容小项的URL。最后,你的数据集会与其他数据集建立丰富的联系,使之在发布时变得很有价值。


下一篇:《Using OpenRefine》翻译~17

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值