ACE2005系列1 - 基本数据理解

ACE2005数据理解

ACE2005数据集,共包涵来自weblogs, broadcast news, newsgroups, broadcast conversation等六类资源的含三种语言(Mandarin Chinese, Standard Arabic, English)的语料,最初被用于2005 Automatic Content Extraction(ACE)的评测。该语料包含了由Linguistic Data Consortium(LDC)提供支持进行标注的多种类型实体、关系和事件;目前,ACE2005数据较多被用于事件抽取任务中。

标注说明

根据README,ACE2005的数据标注过程如下所示

  • 首先分别进行1P和DUAL两轮标注,标注结果分别存储于对应语料的fp1和fp2目录下;

  • 对以上两轮标注的结果进行裁决,将裁决后的标注结果存储于对应语料的adj目录下;

  • 对于English语料,对adj/目录下标注结果再进行一步处理,将结果存储于timex2norm/目录下。

1P: entities        DUAL: entities
    values                values
    events                events
    relations             relations
        |                    |
        |                    |
        |_________?__________|
                  |
                  |
                  |
                  V
             ADJ: entities
                  values
                  events
                  relations
                  |
                  |
                  |
                  V
             NORM: TIMEX2 normalization 
                   (English only)

目录架构


─Arabic              # 阿拉伯语语料库
│  ├─bn
│  │  ├─adj
│  │  ├─altAdj
│  │  ├─fp1
│  │  └─fp2
│  ├─nw
│  │  ├─adj
│  │  ├─altAdj
│  │  ├─fp1
│  │  └─fp2
│  └─wl
│      ├─adj
│      ├─fp1
│      └─fp2
├─Chinese             # 中文语料
│  ├─bn
│  │  ├─adj
│  │  ├─fp1
│  │  └─fp2
│  ├─nw
│  │  ├─adj
│  │  ├─fp1
│  │  └─fp2
│  └─wl
│      ├─adj
│      ├─fp1
│      └─fp2
├─dtd               # 数据说明文件  
└─English           # 英文语料
    ├─bc
    │  ├─adj
    │  ├─fp1
    │  ├─fp2
    │  └─timex2norm
    ├─bn
    │  ├─adj
    │  ├─fp1
    │  ├─fp2
    │  └─timex2norm
    ├─cts
    │  ├─adj
    │  ├─fp1
    │  ├─fp2
    │  └─timex2norm
    ├─nw
    │  ├─adj
    │  ├─fp1
    │  ├─fp2
    │  └─timex2norm
    ├─un
    │  ├─adj
    │  ├─fp1
    │  ├─fp2
    │  └─timex2norm
    └─wl
        ├─adj
        ├─fp1
        ├─fp2
        └─timex2norm

文件解读

以English/bn/CNN_ENG_20030630_085848.18为例。

根据官方README中第六部分,每份语料由如下所示的5个文件组成。

Source Text (.sgm) Files

      - These files contain the source text files in an SGM format.
  These files use the UNIX-style end of lines.  All .sgm files are
  in UTF-8.

 ACE Program Format (APF) (.apf.xml) Files

    - These files are in the official ACE annotation file format.  See
      section 8 for more details.

 AG (.ag.xml) Files

    - These are annotation files created with the LDC's annotation
      toolkit.  These files have been convetered to the corresponding
      .apf.xml files.

 ID table (.tab) Files

    - These files store mapping tables between the IDs used in the
      ag.xml files and their corresponding apf.xml files.

 AIF (.aif.xml) Files

    - These are annotation files created with MITRE's Callisto
      annotation tool.  Applies only to Arabic data produced by Valorem.

以/English/bn/CNN_ENG_20030630_085848.18为例(官网给出的样例数据也是CNN_ENG_20030630_085848.18),进行具体的解读:

CNN_ENG_20030630_085848.18.sgm

sgm文件即是数据源文件,给出了数据原文。其中,关于各个、等标签的含义,可见dtd/ace_source_sgml.v1.0.2.dtd

<DOC>
<DOCID> CNN_ENG_20030630_085848.18 </DOCID>
<DOCTYPE SOURCE="broadcast news"> NEWS STORY </DOCTYPE>
<DATETIME> 2003-06-30 09:23:30 </DATETIME>
<BODY>
<TEXT>
<TURN>
a wildfire in california forced hundreds of people from their homes.
the fire, near the historic state park started yesterday when a
trailer, hauled by a pickup, ignited on the golden state freeway. the
fire consumed more than 500 acres is only about 35% contained. no
injuries have been reported thankfully hat this time.
</TURN>
</TEXT>
</BODY>
<ENDTIME> 2003-06-30 09:23:54 </ENDTIME>
</DOC>

CNN_ENG_20030630_085848.18.apf.xml

.apf.xml文件是ACE标注过实体、关系、事件等要素后以XML格式呈现的文本,具体可见官网给出的样例, .apf.xml文件的说明文档是dtd/ace_source_sgml.apf.v5.1.1.dtd

根据dtd/ace_source_sgml.apf.v5.1.1.dtd, ag.xml文件中标注的要素包括

ENTITY
  • entity包含4个必须具备的属性:ID,TYPE,SUBTYPE和CLASS

  • entity属性中的TYPE共有7类,分别是PER、ORG、LOC、GPE、FAC、VEH和WEA;每一类下都有若干对应的子类,具体可见dtd/ace_source_sgml.apf.v5.1.1.dtd文档;

  • entity可能包含的元素有entity mentionentity_attributes,external_link,具体可见文档

    • entity_mention包含head和extent两个元素,ID和TYPNAM|NOM|PRO)两个必备的属性,以及LDCTYPE(NAM|NOM|BAR|PRO|WHQ|HLS|PTV|APP|ARC|EAP|NAMPRE|NOMPRE)、ROLE(PER|ORG|LOC|GPE)、METONYMY_MENTION (TRUE|FALSE)和LDCATR(TRUE|FALSE)四个非必需的属性。

    LDCTYPE及其子类什么意思???METONYMY_MENTION (TRUE|FALSE)和LDCATR(TRUE|FALSE)什么意思???

    • 其他两个元素具体见文档说明
VALUE
  • value包含3个必须具备的属性:ID,TYPE和SUBTYPE

  • value的TYPE共有5类,分别是Numeric、Contact-Info、Crime、Job-Title和Sentence;每一类下都有若干对应的子类,具体可见dtd/ace_source_sgml.apf.v5.1.1.dtd文档;

  • value包含的元素是value mention, 其必备属性是ID

timex2
  • timex2的必备属性是ID,其他可选属性包括VAL、MOD(BEFORE|AFTER|ON_OR_BEFORE|…|APPROX)、ANCHOR_VAL、ANCHOR_DIR(WITHIN|…|BEFORE|AFTER)、SET(YES)、NON_SPECIFIC(YES)和COMMENT

  • timex2还包括timex2 mention, 其必备属性是ID

    • timex2 mention的元素是extent

    ldc_scope, char_span.seq_char是什么???

RELATION
  • relation包含2个必须具备的属性:ID和TYPE,其他可选属性包括SUBTYPE、MODALITY和TENSE

  • relation可能包含包含3个元素,分别是relation_argument,relation_argument+,和relation_mention*

  • Some Explaination

    METONYMY relations mark cross-type metonymies, and will not have relation mentions or values for MODALITY and TENSE.  For these reasons, we use "relation_mention*" instead of "relation_mention+", and "#IMPLIED" for MODALITY and TENSE. 
    

EVENT

  • relation包含6个必须具备的属性,分别是TYPE (Life|…|Justice)、SUBTYPE(Be-Born|…|Appeal)、MODALITY (Asserted|Other)、POLARITY (Positive|Negative)、GENERICITY(Generic|Specific)、TENSE(Past|…|Unspecified)

  • event可能包含包含2个元素,分别是event_argument*,event_mention+

  • 注意,apf.xml文件中Event标注部分的anchor是event trigger.

CNN_ENG_20030630_085848.18.ag.xml

.ag.xml文件是ACE ToolKit标注后的问题,根据ag.xml转化得到pdf.xml,, .ag.xml文件的说明文档是dtd/ace_source_sgml.ag-1.1.dtd

CNN_ENG_20030630_085848.18.tab

.tab文件存储了ag.xml文件中ID于apf.xml中标注结果的映射


以上是基本的数据理解,具体再根据读论文的情况进行补充。

如有不当与缺失之处,欢迎阅读此文的朋友一起交流。

2019.06.08

了解更多论文分享信息,请关注公众号深度学习的知识小屋

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值