ACE2005数据理解
ACE2005数据集,共包涵来自weblogs, broadcast news, newsgroups, broadcast conversation等六类资源的含三种语言(Mandarin Chinese, Standard Arabic, English)的语料,最初被用于2005 Automatic Content Extraction(ACE)的评测。该语料包含了由Linguistic Data Consortium(LDC)提供支持进行标注的多种类型实体、关系和事件;目前,ACE2005数据较多被用于事件抽取任务中。
标注说明
根据README,ACE2005的数据标注过程如下所示
-
首先分别进行1P和DUAL两轮标注,标注结果分别存储于对应语料的fp1和fp2目录下;
-
对以上两轮标注的结果进行裁决,将裁决后的标注结果存储于对应语料的adj目录下;
-
对于English语料,对adj/目录下标注结果再进行一步处理,将结果存储于timex2norm/目录下。
1P: entities DUAL: entities
values values
events events
relations relations
| |
| |
|_________?__________|
|
|
|
V
ADJ: entities
values
events
relations
|
|
|
V
NORM: TIMEX2 normalization
(English only)
目录架构
─Arabic # 阿拉伯语语料库
│ ├─bn
│ │ ├─adj
│ │ ├─altAdj
│ │ ├─fp1
│ │ └─fp2
│ ├─nw
│ │ ├─adj
│ │ ├─altAdj
│ │ ├─fp1
│ │ └─fp2
│ └─wl
│ ├─adj
│ ├─fp1
│ └─fp2
├─Chinese # 中文语料
│ ├─bn
│ │ ├─adj
│ │ ├─fp1
│ │ └─fp2
│ ├─nw
│ │ ├─adj
│ │ ├─fp1
│ │ └─fp2
│ └─wl
│ ├─adj
│ ├─fp1
│ └─fp2
├─dtd # 数据说明文件
└─English # 英文语料
├─bc
│ ├─adj
│ ├─fp1
│ ├─fp2
│ └─timex2norm
├─bn
│ ├─adj
│ ├─fp1
│ ├─fp2
│ └─timex2norm
├─cts
│ ├─adj
│ ├─fp1
│ ├─fp2
│ └─timex2norm
├─nw
│ ├─adj
│ ├─fp1
│ ├─fp2
│ └─timex2norm
├─un
│ ├─adj
│ ├─fp1
│ ├─fp2
│ └─timex2norm
└─wl
├─adj
├─fp1
├─fp2
└─timex2norm
文件解读
以English/bn/CNN_ENG_20030630_085848.18为例。
根据官方README中第六部分,每份语料由如下所示的5个文件组成。
Source Text (.sgm) Files
- These files contain the source text files in an SGM format.
These files use the UNIX-style end of lines. All .sgm files are
in UTF-8.
ACE Program Format (APF) (.apf.xml) Files
- These files are in the official ACE annotation file format. See
section 8 for more details.
AG (.ag.xml) Files
- These are annotation files created with the LDC's annotation
toolkit. These files have been convetered to the corresponding
.apf.xml files.
ID table (.tab) Files
- These files store mapping tables between the IDs used in the
ag.xml files and their corresponding apf.xml files.
AIF (.aif.xml) Files
- These are annotation files created with MITRE's Callisto
annotation tool. Applies only to Arabic data produced by Valorem.
以/English/bn/CNN_ENG_20030630_085848.18为例(官网给出的样例数据也是CNN_ENG_20030630_085848.18),进行具体的解读:
CNN_ENG_20030630_085848.18.sgm
sgm文件即是数据源文件,给出了数据原文。其中,关于各个、等标签的含义,可见dtd/ace_source_sgml.v1.0.2.dtd。
<DOC>
<DOCID> CNN_ENG_20030630_085848.18 </DOCID>
<DOCTYPE SOURCE="broadcast news"> NEWS STORY </DOCTYPE>
<DATETIME> 2003-06-30 09:23:30 </DATETIME>
<BODY>
<TEXT>
<TURN>
a wildfire in california forced hundreds of people from their homes.
the fire, near the historic state park started yesterday when a
trailer, hauled by a pickup, ignited on the golden state freeway. the
fire consumed more than 500 acres is only about 35% contained. no
injuries have been reported thankfully hat this time.
</TURN>
</TEXT>
</BODY>
<ENDTIME> 2003-06-30 09:23:54 </ENDTIME>
</DOC>
CNN_ENG_20030630_085848.18.apf.xml
.apf.xml文件是ACE标注过实体、关系、事件等要素后以XML格式呈现的文本,具体可见官网给出的样例, .apf.xml文件的说明文档是dtd/ace_source_sgml.apf.v5.1.1.dtd。
根据dtd/ace_source_sgml.apf.v5.1.1.dtd, ag.xml文件中标注的要素包括
ENTITY
-
entity包含4个必须具备的属性:ID,TYPE,SUBTYPE和CLASS
-
entity属性中的TYPE共有7类,分别是PER、ORG、LOC、GPE、FAC、VEH和WEA;每一类下都有若干对应的子类,具体可见dtd/ace_source_sgml.apf.v5.1.1.dtd文档;
-
entity可能包含的元素有entity mention、entity_attributes,external_link,具体可见文档
- entity_mention包含head和extent两个元素,ID和TYPNAM|NOM|PRO)两个必备的属性,以及LDCTYPE(NAM|NOM|BAR|PRO|WHQ|HLS|PTV|APP|ARC|EAP|NAMPRE|NOMPRE)、ROLE(PER|ORG|LOC|GPE)、METONYMY_MENTION (TRUE|FALSE)和LDCATR(TRUE|FALSE)四个非必需的属性。
LDCTYPE及其子类什么意思???METONYMY_MENTION (TRUE|FALSE)和LDCATR(TRUE|FALSE)什么意思???
- 其他两个元素具体见文档说明
VALUE
-
value包含3个必须具备的属性:ID,TYPE和SUBTYPE
-
value的TYPE共有5类,分别是Numeric、Contact-Info、Crime、Job-Title和Sentence;每一类下都有若干对应的子类,具体可见dtd/ace_source_sgml.apf.v5.1.1.dtd文档;
-
value包含的元素是value mention, 其必备属性是ID
timex2
-
timex2的必备属性是ID,其他可选属性包括VAL、MOD(BEFORE|AFTER|ON_OR_BEFORE|…|APPROX)、ANCHOR_VAL、ANCHOR_DIR(WITHIN|…|BEFORE|AFTER)、SET(YES)、NON_SPECIFIC(YES)和COMMENT
-
timex2还包括timex2 mention, 其必备属性是ID
- timex2 mention的元素是extent
ldc_scope, char_span.seq_char是什么???
RELATION
-
relation包含2个必须具备的属性:ID和TYPE,其他可选属性包括SUBTYPE、MODALITY和TENSE
-
relation可能包含包含3个元素,分别是relation_argument,relation_argument+,和relation_mention*
-
Some Explaination
METONYMY relations mark cross-type metonymies, and will not have relation mentions or values for MODALITY and TENSE. For these reasons, we use "relation_mention*" instead of "relation_mention+", and "#IMPLIED" for MODALITY and TENSE.
EVENT
-
relation包含6个必须具备的属性,分别是TYPE (Life|…|Justice)、SUBTYPE(Be-Born|…|Appeal)、MODALITY (Asserted|Other)、POLARITY (Positive|Negative)、GENERICITY(Generic|Specific)、TENSE(Past|…|Unspecified)
-
event可能包含包含2个元素,分别是event_argument*,event_mention+
-
注意,apf.xml文件中Event标注部分的anchor是event trigger.
CNN_ENG_20030630_085848.18.ag.xml
.ag.xml文件是ACE ToolKit标注后的问题,根据ag.xml转化得到pdf.xml,, .ag.xml文件的说明文档是dtd/ace_source_sgml.ag-1.1.dtd。
CNN_ENG_20030630_085848.18.tab
.tab文件存储了ag.xml文件中ID于apf.xml中标注结果的映射
以上是基本的数据理解,具体再根据读论文的情况进行补充。
如有不当与缺失之处,欢迎阅读此文的朋友一起交流。
2019.06.08
了解更多论文分享信息,请关注公众号深度学习的知识小屋