构建AIDA-CoNLL数据集操作指南

最新推荐文章于 2024-09-03 00:14:44 发布

面包猎人

最新推荐文章于 2024-09-03 00:14:44 发布

阅读量1.8k

点赞数 4

分类专栏：开发踩坑文章标签： python 深度学习 linux java 数据集

本文链接：https://blog.csdn.net/weixin_40807714/article/details/118659963

版权

开发踩坑专栏收录该内容

7 篇文章 1 订阅

订阅专栏

操作指南

介绍

AIDA-CoNLL也称AIDA CoNLL-YAGO，是实体消歧和实体链接常用的公共数据集，它发布于EMNLP2011的论文Robust Disambiguation of Named Entities in Text。AIDA-CoNLL包含了实体分配给为原始的CoNLL 2003实体识别任务注释的命名实体的表述（mention）。实体由YAGO2实体名称、Wikipedia URL或Freebase mid确定。显然，该数据集需要一定的配置。
AIDA-CoNLL官方地址：链接

操作流程

下载基础文件

打开链接地址，只需下载蓝框所示的压缩包。
在这里插入图片描述

打开readme，我们发现构建数据集还需要构建CoNLL 2003数据集，尤其需要其中的三个文件：eng.testa, eng.testb, eng.train。

构建CoNLL2003

CoNLL 2003官方地址：链接。我们只需要下载蓝色箭头指向的链接地址。
在这里插入图片描述

为了构建出这三个文件，我们还需要the Reuters Corpus RCV1（路透社语料库，python的nltk库涵盖该库，但不确定是否为所需的原始数据），具体操作流程可以阅读文件夹中的readme_CoNLL文件或该链接（推荐该链接，开头有详细的操作流程）。
介绍：路透社语料库，第1卷，英语，1996-08-20至1997-08-19（发布日期2000-11-03，格式版本1，校正级别0）。这是通过网络下载分发的，包含约810,000条路透社的英文新闻报道。它需要约2.5GB的未压缩文件的存储。
关于the Reuters Corpus RCV1，我们需要进入该链接，然后向NIST申请下载路透社语料库。如实填写Organizational agreement即可（要求打印出来），官方回复（有时差）比较及时，也很nice。按照Getting the corpus指示发送文件，等待回复即可。
在这里插入图片描述
下载完毕后，将rcv1放入ner文件夹中，最后通过终端（MAC或Linux）运行（Windows需要在Git Bash环境下运行，安装指南请自行百度）以下指令：

cd ner
bin/make.eng.2016

生成三个所需文件，这样就完成了CoNLL 2003部分的构建。
在这里插入图片描述
之后将三个文件放到一开始下载的压缩包aida-yago2-dataset中。接下来开始构造AIDA-CoNLL数据集。

构建AIDA-CoNLL

接下来需要java环境运行文件夹中的aida-yago2-dataset.jar。MAC可直接进入终端运行如下指令：

cd aida-yago2-dataset
java -jar aida-yago2-dataset.jar

此时，它会弹出确认三个文件位置的提示，我们只需把aida-yago2-dataset文件夹的位置粘贴到终端即可。提示：直接将文件夹拽到浏览器网址处，会显示文件夹在本机中的URL。
在这里插入图片描述
完成构建。

参考

面包猎人

关注

4
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录