介绍
AIDA-CoNLL也称AIDA CoNLL-YAGO,是实体消歧和实体链接常用的公共数据集,它发布于EMNLP2011的论文Robust Disambiguation of Named Entities in Text。AIDA-CoNLL包含了实体分配给为原始的CoNLL 2003实体识别任务注释的命名实体的表述(mention)。实体由YAGO2实体名称、Wikipedia URL或Freebase mid确定。显然,该数据集需要一定的配置。
AIDA-CoNLL官方地址:链接
操作流程
下载基础文件
打开链接地址,只需下载蓝框所示的压缩包。
打开readme,我们发现构建数据集还需要构建CoNLL 2003数据集,尤其需要其中的三个文件:eng.testa, eng.testb, eng.train。
构建CoNLL2003
CoNLL 2003官方地址:链接。我们只需要下载蓝色箭头指向的链接地址。
为了构建出这三个文件,我们还需要the Reuters Corpus RCV1(路透社语料库,python的nltk库涵盖该库,但不确定是否为所需的原始数据),具体操作流程可以阅读文件夹中的readme_CoNLL文件或该链接(推荐该链接,开头有详细的操作流程)。
介绍:路透社语料库,第1卷,英语,1996-08-20至1997-08-19(发布日期2000-11-03,格式版本1,校正级别0)。这是通过网络下载分发的,包含约810,000条路透社的英文新闻报道。它需要约2.5GB的未压缩文件的存储。
关于the Reuters Corpus RCV1,我们需要进入该链接 ,然后向NIST申请下载路透社语料库。如实填写Organizational agreement即可(要求打印出来),官方回复(有时差)比较及时,也很nice。按照Getting the corpus指示发送文件,等待回复即可。
下载完毕后,将rcv1放入ner文件夹中,最后通过终端(MAC或Linux)运行(Windows需要在Git Bash环境下运行,安装指南请自行百度)以下指令:
cd ner
bin/make.eng.2016
生成三个所需文件,这样就完成了CoNLL 2003部分的构建。
之后将三个文件放到一开始下载的压缩包aida-yago2-dataset中。接下来开始构造AIDA-CoNLL数据集。
构建AIDA-CoNLL
接下来需要java环境运行文件夹中的aida-yago2-dataset.jar。MAC可直接进入终端运行如下指令:
cd aida-yago2-dataset
java -jar aida-yago2-dataset.jar
此时,它会弹出确认三个文件位置的提示,我们只需把aida-yago2-dataset文件夹的位置粘贴到终端即可。提示:直接将文件夹拽到浏览器网址处,会显示文件夹在本机中的URL。
完成构建。