ACE05 关系抽取数据集

ACE05 自然语言信息抽取数据集

简介

  • 数据集概述

    提供已经标注好的多种类型实体,关系和事件,目前该数据集主要用于事件抽取任务中

    有中文、英文和阿拉伯文的数据

标注说明

  • 标注过程如下
  1. 先进行1P和DUAL两轮标注,标注的结果分别存储于对应语料的fp1和fp2目录下
  2. 对以上两轮标注的结果进行裁决,将才绝后的标注结果存储于对应语料的adj目录下
  3. 对于English的语料,对adj目录下标注的结果再进行一步处理,将结果存储于timex2norm目录下

对应的标注过程和标注内容如下

    1P: entities        DUAL: entities
        values                values
        events                events
        relations             relations
            |                    |
            |                    |
            |_________?__________|
                      |
                      |
                      |
                      V
                 ADJ: entities
                      values
                      events
                      relations
                      |
                      |
                      |
                      V
                 NORM: TIMEX2 normalization 
                       (English only)

目录架构

  • 目录架构如下

    ─Arabic              # 阿拉伯语语料库
    │  ├─bn
    │  │  ├─adj
    │  │  ├─altAdj
    │  │  ├─fp1
    │  │  └─fp2
    │  ├─nw
    │  │  ├─adj
    │  │  ├─altAdj
    │  │  ├─fp1
    │  │  └─fp2
    │  └─wl
    │      ├─adj
    │      ├─fp1
    │      └─fp2
    ├─Chinese             # 中文语料
    │  ├─bn
    │  │  ├─adj
    │  │  ├─fp1
    │  │  └─fp2
    │  ├─nw
    │  │  ├─adj
    │  │  ├─fp1
    │  │  └─fp2
    │  └─wl
    │      ├─adj
    │      ├─fp1
    │      └─fp2
    ├─dtd               # 数据说明文件  
    └─English           # 英文语料
        ├─bc
        │  ├─adj
        │  ├─fp1
        │  ├─fp2
        │  └─timex2norm
        ├─bn
        │  ├─adj
        │  ├─fp1
        │  ├─fp2
        │  └─timex2norm
        ├─cts
        │  ├─adj
        │  ├─fp1
        │  ├─fp2
        │  └─timex2norm
        ├─nw
        │  ├─adj
        │  ├─fp1
        │  ├─fp2
        │  └─timex2norm
        ├─un
        │  ├─adj
        │  ├─fp1
        │  ├─fp2
        │  └─timex2norm
        └─wl
            ├─adj
            ├─fp1
            ├─fp2
            └─timex2norm
    

文件解读

  • 每份语料由如下所示的5个文件组成

    Source Text (.sgm) Files
    	- 这些文件是SGM格式的源文本文件,.sgm文件是UTF-8编码的
     ACE Program Format (APF) (.apf.xml) Files
    	- 这些文件采用ACE注释文件格式。
     AG (.ag.xml) Files
        - 这些是使用LDC的注释工具创建的注释文件,这些文件被转换为对应的.apf.xml文件。
     ID table (.tab) Files
        - 这些文件通过使用ag.xml文件和相应的apf.xml文件存储ID们之间的映射表
     AIF (.aif.xml) Files
    	- 这些是使用MITRE的Callisto创建的注释文件,仅适用于Valorem产生的阿拉伯数据。
    
以下以/English/bn/CNN_ENG_20030630_085848.18为例进行具体的解读
  • CNN_ENG_20030630_085848.18.sgm中内容(关于类似<DOC>这些标签的含义可见dtd/ace_source_sgml.v1.0.2.dtd)

    <DOC>
    <DOCID> CNN_ENG_20030630_085848.18 </DOCID>#文件名字
    <DOCTYPE SOURCE="broadcast news"> NEWS STORY </DOCTYPE>#文件来源
    <DATETIME> 2003-06-30 09:23:30 </DATETIME>#时间
    <BODY>
    <TEXT>
    <TURN>#具体内容
    a wildfire in california forced hundreds of people from their homes.
    the fire, near the historic state park started yesterday when a
    trailer, hauled by a pickup, ignited on the golden state freeway. the
    fire consumed more than 500 acres is only about 35% contained. no
    injuries have been reported thankfully hat this time.
    </TURN>
    </TEXT>
    </BODY>
    <ENDTIME> 2003-06-30 09:23:54 </ENDTIME>
    </DOC>
    
  • CNN_ENG_20030630_085848.18.apf.xml

    .apf.xml文件是ACE标注过实体、关系、事件等要素后以XML格式呈现的文本(.apf.xml文件的说明文档是dtd/ace_source_sgml.apf.v5.1.1.dtd)。

    说一下dtd/ace_source_sgml.apf.v5.1.1.dtd应该怎么读

    <!ATTLIST relation           #relation的标签具有以下的几个属性
                                 ID       ID                        #REQUIRED 
                                 									#这个REQUIRED表示必须的
                                 TYPE     (PHYS|PART-WHOLE|PER-SOC|ORG-AFF|
                                           ART|GEN-AFF|METONYMY)    #REQUIRED
                                 SUBTYPE  (Located|Near|Geographical| #二级分类
                                           Subsidiary|Artifact|Business|
                                           Family|Lasting-Personal|Employment|
                                           Ownership|Founder|Student-Alum|
                                           Sports-Affiliation|
                                           Investor-Shareholder|
                                           Membership|
                                           User-Owner-Inventor-Manufacturer|
                                           Citizen-Resident-Religion-Ethnicity|
                                           Org-Location)            #IMPLIED
                                 MODALITY (Asserted|Other)          #IMPLIED
                                 TENSE    (Past|Present|Future|		#时态
                                           Unspecified)             #IMPLIED
    >
    

    relation标签:

    <relation ID="CNN_ENG_20030630_085848.18-R1" TYPE="ART" SUBTYPE="User-Owner-Inventor-Manufacturer" TENSE="Unspecified" MODALITY="Asserted">
    
  • 回到CNN_ENG_20030630_085848.18.apf.xml其中标记的要素包括

    1. ENTITY

      <entity ID="CNN_ENG_20030630_085848.18-E2" TYPE="PER" SUBTYPE="Group" CLASS
  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值