ACE05 自然语言信息抽取数据集
简介
-
数据集概述
提供已经标注好的多种类型实体,关系和事件,目前该数据集主要用于事件抽取任务中
有中文、英文和阿拉伯文的数据
标注说明
- 标注过程如下
- 先进行1P和DUAL两轮标注,标注的结果分别存储于对应语料的fp1和fp2目录下
- 对以上两轮标注的结果进行裁决,将才绝后的标注结果存储于对应语料的adj目录下
- 对于English的语料,对adj目录下标注的结果再进行一步处理,将结果存储于timex2norm目录下
对应的标注过程和标注内容如下
1P: entities DUAL: entities
values values
events events
relations relations
| |
| |
|_________?__________|
|
|
|
V
ADJ: entities
values
events
relations
|
|
|
V
NORM: TIMEX2 normalization
(English only)
目录架构
-
目录架构如下
─Arabic # 阿拉伯语语料库 │ ├─bn │ │ ├─adj │ │ ├─altAdj │ │ ├─fp1 │ │ └─fp2 │ ├─nw │ │ ├─adj │ │ ├─altAdj │ │ ├─fp1 │ │ └─fp2 │ └─wl │ ├─adj │ ├─fp1 │ └─fp2 ├─Chinese # 中文语料 │ ├─bn │ │ ├─adj │ │ ├─fp1 │ │ └─fp2 │ ├─nw │ │ ├─adj │ │ ├─fp1 │ │ └─fp2 │ └─wl │ ├─adj │ ├─fp1 │ └─fp2 ├─dtd # 数据说明文件 └─English # 英文语料 ├─bc │ ├─adj │ ├─fp1 │ ├─fp2 │ └─timex2norm ├─bn │ ├─adj │ ├─fp1 │ ├─fp2 │ └─timex2norm ├─cts │ ├─adj │ ├─fp1 │ ├─fp2 │ └─timex2norm ├─nw │ ├─adj │ ├─fp1 │ ├─fp2 │ └─timex2norm ├─un │ ├─adj │ ├─fp1 │ ├─fp2 │ └─timex2norm └─wl ├─adj ├─fp1 ├─fp2 └─timex2norm
文件解读
-
每份语料由如下所示的5个文件组成
Source Text (.sgm) Files - 这些文件是SGM格式的源文本文件,.sgm文件是UTF-8编码的 ACE Program Format (APF) (.apf.xml) Files - 这些文件采用ACE注释文件格式。 AG (.ag.xml) Files - 这些是使用LDC的注释工具创建的注释文件,这些文件被转换为对应的.apf.xml文件。 ID table (.tab) Files - 这些文件通过使用ag.xml文件和相应的apf.xml文件存储ID们之间的映射表 AIF (.aif.xml) Files - 这些是使用MITRE的Callisto创建的注释文件,仅适用于Valorem产生的阿拉伯数据。
以下以/English/bn/CNN_ENG_20030630_085848.18为例进行具体的解读
-
CNN_ENG_20030630_085848.18.sgm中内容(关于类似<DOC>这些标签的含义可见dtd/ace_source_sgml.v1.0.2.dtd)
<DOC> <DOCID> CNN_ENG_20030630_085848.18 </DOCID>#文件名字 <DOCTYPE SOURCE="broadcast news"> NEWS STORY </DOCTYPE>#文件来源 <DATETIME> 2003-06-30 09:23:30 </DATETIME>#时间 <BODY> <TEXT> <TURN>#具体内容 a wildfire in california forced hundreds of people from their homes. the fire, near the historic state park started yesterday when a trailer, hauled by a pickup, ignited on the golden state freeway. the fire consumed more than 500 acres is only about 35% contained. no injuries have been reported thankfully hat this time. </TURN> </TEXT> </BODY> <ENDTIME> 2003-06-30 09:23:54 </ENDTIME> </DOC>
-
CNN_ENG_20030630_085848.18.apf.xml
.apf.xml文件是ACE标注过实体、关系、事件等要素后以XML格式呈现的文本(.apf.xml文件的说明文档是dtd/ace_source_sgml.apf.v5.1.1.dtd)。
说一下dtd/ace_source_sgml.apf.v5.1.1.dtd应该怎么读
<!ATTLIST relation #relation的标签具有以下的几个属性 ID ID #REQUIRED #这个REQUIRED表示必须的 TYPE (PHYS|PART-WHOLE|PER-SOC|ORG-AFF| ART|GEN-AFF|METONYMY) #REQUIRED SUBTYPE (Located|Near|Geographical| #二级分类 Subsidiary|Artifact|Business| Family|Lasting-Personal|Employment| Ownership|Founder|Student-Alum| Sports-Affiliation| Investor-Shareholder| Membership| User-Owner-Inventor-Manufacturer| Citizen-Resident-Religion-Ethnicity| Org-Location) #IMPLIED MODALITY (Asserted|Other) #IMPLIED TENSE (Past|Present|Future| #时态 Unspecified) #IMPLIED >
relation标签:
<relation ID="CNN_ENG_20030630_085848.18-R1" TYPE="ART" SUBTYPE="User-Owner-Inventor-Manufacturer" TENSE="Unspecified" MODALITY="Asserted">
-
回到CNN_ENG_20030630_085848.18.apf.xml其中标记的要素包括
-
ENTITY
<entity ID="CNN_ENG_20030630_085848.18-E2" TYPE="PER" SUBTYPE="Group" CLASS
-