实验室同门有人做事理知识图谱,我也看了下事件抽取的论文,大多实验都是基于ACE2005。这个数据好像需要LDC号才可以下载,好像是付费的。
这里我大概梳理下ACE2005数据集的文件格式。ACE2005数据集目录结构如下,Arabic chinese下的各有bn,nw,wl三个文件夹。
![80bc8f2a3c228ca38250d60f575c7af0.png](https://i-blog.csdnimg.cn/blog_migrate/08d7d5299efa09b2e95b8685228d93df.png)
各个文件夹代表不同来源的数据,具体含义如下:
![db6290ea7c41d51a7e4326bad4e3498c.png](https://i-blog.csdnimg.cn/blog_migrate/3821e85e9efce1b50719cb3e1231d98a.jpeg)
读readme可知,ACE005数据标注过程基本如下
- 首先分别进行1P和DUAL两轮标注,标注结果分别存储于对应语料的fp1和fp2目录下;
- 对以上两轮标注的结果进行裁决,将裁决后的标注结果存储于对应语料的adj目录下;
- 对于English语料,对adj/目录下标注结果再进行一步处理,将结果存储于timex2norm/目录下。
所以在bc,bn等文件夹下会有
- fp1
- fp2
- adj
- timex2norm
四个文件夹。但是Arabic 和 Chin