构建AIDA-CoNLL数据集操作指南

介绍

  AIDA-CoNLL也称AIDA CoNLL-YAGO,是实体消歧和实体链接常用的公共数据集,它发布于EMNLP2011的论文Robust Disambiguation of Named Entities in Text。AIDA-CoNLL包含了实体分配给为原始的CoNLL 2003实体识别任务注释的命名实体的表述(mention)。实体由YAGO2实体名称、Wikipedia URL或Freebase mid确定。显然,该数据集需要一定的配置。
  AIDA-CoNLL官方地址:链接

操作流程

下载基础文件

  打开链接地址,只需下载蓝框所示的压缩包。
在这里插入图片描述
在这里插入图片描述
  打开readme,我们发现构建数据集还需要构建CoNLL 2003数据集,尤其需要其中的三个文件:eng.testa, eng.testb, eng.train。
在这里插入图片描述

构建CoNLL2003

  CoNLL 2003官方地址:链接。我们只需要下载蓝色箭头指向的链接地址。
在这里插入图片描述

  为了构建出这三个文件,我们还需要the Reuters Corpus RCV1(路透社语料库,python的nltk库涵盖该库,但不确定是否为所需的原始数据),具体操作流程可以阅读文件夹中的readme_CoNLL文件或链接(推荐该链接,开头有详细的操作流程)。
  介绍:路透社语料库,第1卷,英语,1996-08-20至1997-08-19(发布日期2000-11-03,格式版本1,校正级别0)。这是通过网络下载分发的,包含约810,000条路透社的英文新闻报道。它需要约2.5GB的未压缩文件的存储。
  关于the Reuters Corpus RCV1,我们需要进入该链接 ,然后向NIST申请下载路透社语料库。如实填写Organizational agreement即可(要求打印出来),官方回复(有时差)比较及时,也很nice。按照Getting the corpus指示发送文件,等待回复即可。
在这里插入图片描述
  下载完毕后,将rcv1放入ner文件夹中,最后通过终端(MAC或Linux)运行(Windows需要在Git Bash环境下运行,安装指南请自行百度)以下指令:

cd ner
bin/make.eng.2016

生成三个所需文件,这样就完成了CoNLL 2003部分的构建。
在这里插入图片描述
  之后将三个文件放到一开始下载的压缩包aida-yago2-dataset中。接下来开始构造AIDA-CoNLL数据集。

构建AIDA-CoNLL

  接下来需要java环境运行文件夹中的aida-yago2-dataset.jar。MAC可直接进入终端运行如下指令:

cd aida-yago2-dataset
java -jar aida-yago2-dataset.jar

  此时,它会弹出确认三个文件位置的提示,我们只需把aida-yago2-dataset文件夹的位置粘贴到终端即可。提示:直接将文件夹拽到浏览器网址处,会显示文件夹在本机中的URL。
在这里插入图片描述
  完成构建。
在这里插入图片描述

参考

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值