{ACL2020}In Layman’s Terms: Semi-Open Relation Extraction from Scientific Texts(关系抽取,半开放关系抽取)

  • 半开放关系抽取
    • 用FOBIE训练一个narrow IE
    • 训练一个OpenIE
    • 用narrowIE矫正OpenIE

1.Introduction

  • 标注困难、

    • 跨领域标注更难
  • TRADE-OFF relations

    • 随着干燥度的增加,木质部的安全性增加和效率降低的广泛模式是明显的,有一些证据表明在针叶树种或个体之间存在安全-效率的权衡
    • trade-off是中心思想/核心关系,帮助过滤无关的OpenIE的提取
    • 由核心关系的arg作为锚点,进一步探索到相关的概念和关系
    • 无关的概念,就不会被提取
      在这里插入图片描述
  • 信息抽取尤其是关系抽取可以帮助下游任务获得中心思想

  • 需求

    • narrow IE:关系太少,而科技文献需要更多的关系(有很多领域独有的);但准确度高
    • OpenIE用于新闻、网络,科技文献上表现不佳
    • 真正的需要:两者兼备
      • 获取中心思想
      • cover中心思想的关系
  • 本文模型(SORE)

    • 假设:可以减少无关关系的提取,则有益于科技文献
  • 本文数据集(FOBIE)

    • FOBIE包含了手工注释的句子,这些句子表达了明确的权衡,或语法上相似的关系,它们捕获了全文生物学论文中的中心概念。
  • narrow IE:(Luan et al., 2018a)

    • 用于过滤OpenIE提取的结果

2. 相关工作

  • 以前:

    • 手工或规则
      • 跨领域:需要微调(因为依赖语法特征)
      • 对科学文本有用:额外的知识的引入有益于减轻非专家对文本的理解
  • 困难

    • the boundaries of an argument,
    • handling latent n-ary relations,
    • difficulty handling negations,
    • generating uninformative extractions
  • 本文

    • 通过narrow IE,减少错误,和uninformative的提取
    • 使用central concept(narrow IE提取的)

2.2 narrow RE from scientific text

  • pipeline:
    • 预先计算的:依赖树、word position embedding、最短依赖路径
  • 降低pipeline传递误差/联合模型
  • 数据集
    • ScienceIE:SemEval 2017 task10:3个key-phrases,而不是实体,下义词,同义词
    • SemEval 2018 task 7:6 narrow relations between 7 entity types
    • SciERC:7relation(含共指消解),6 entities
  • SemEval任务的系统
    • 基于LSTM
    • 半监督与ensembling结合
    • 预训练concept embedding

2.3 dataset

  • 大多数是生物领域
    • 预先定义的关系
  • BB corpus:
    • 4 entity,2 relation
    • abstract,title,paragraph,sentece(20个全文 doc)
  • SeeDev corpus:
    • 86 paragraph(20个全文doc)
  • 上面两个:
    • 实体关系多,数据集小—不平衡
    • dev/train/test:overlap
  • FOBIE
    • arg:无entity type,有key-phrase
    • 1548个长难句(来自1215 doc)
    • 在生物领域更general
    • BB/SeeDev:只专注于生物领域的一小部分
      在这里插入图片描述

3 dataset description

3.1 数据收集

  • trade-off:
    • 中心词的关系
    • compromise,optimization,balance,interplay,conflict
    • –trigger words
    • 提取工具:rule-based system(RBS)–仅提取trande-off的关系
    • 文本来源:the Journal of Experimental Biology (JEB) and BioMed Central (BMC) journals on ‘Biology’, ‘Evolutionary Biology, and ‘Systems Biology’.
      • 专注于生物领域
      • 保留:abstract,introduction,results,discusss,conclusion
      • spaCy:分句、依赖、POS

3.2 标注

  • 第一次人类标注(专家)
    • 修正和扩展
    • BRAT
    • 标记
      • trade-off
      • argument-modifier
      • not-trade-off
        • 有关,但不表示trade-off
        • 作为负例:帮助识别
          • trigger words可能连续
            • 不相关:trade-off
            • 相关:no-trade-off
    • 注意
      • 多数关系是嵌套的或者非投影的
        • 注意介词:prep
          • 增加介词的规则:
            • 可以从arg中分离的
            • 有多个arg
  • 第二次人类标注(专家)
    • 重标注和质量控制
    • inter-annotator agreement cohen k:0.93
    • no overlap
    • key-phrases:平均3.44 tokens,12% 1token–较长
      • ScienceIE :34% 1token
      • sciERC: avg entity length:2.36
    • sentece:longer
      • FOBIE:79.26% >25tokens
      • SciERC: avg 24.31
        在这里插入图片描述

4. Narrow IE baseline

4.1 task definition

  • 提取
    • trigger
    • trigger和他的arg们之间的二元关系
      • 有方向

4.2 baseline system

  • span-based approach
    • span-based :span representation作为分类特征:保证端到端的学习中在多个任务之间传递信息时,推理的复杂度并不增加
    • 方法:
      • Lee,2017
      • SRL(He ,2017)
      • SciIE(Luan,2018a)–本文用这个
        • span:trigger words,key-phrases
        • relation
        • embedding:glove and elmo
        • beam pruning:剪掉不需要的span
          • mention scores ϕ m r \phi_{mr} ϕmr:beam size λ n = 8 \lambda_n=8 λn=8
          • max length:W=10(span的最大长度)
        • 标签预测:
          • span标签: ϵ \epsilon ϵ-non-span class
          • relation标签: ϵ \epsilon ϵ:non-relation class
            在这里插入图片描述

4.3 narrow IE results

  • SciIE:

    • argument recognition
      • a valid span or not
      • trigger word or a key-phrase
    • relation extraction
  • RBS

    • 可以很好地识别trigger word:95.86F1
    • 但难以识别key-phrase:22.36F1
      在这里插入图片描述
      在这里插入图片描述

4.4 supporting trade-off annotation

  • 定性分析
    • central trade-off relation and arg:41.68%
    • trade-off:243
    • tradeoff per doc:77.37%与专家相同
    • 89.71% of 243 doc:讨论后认为对
  • 发现
    • 2种uninformative trade-offs:
      • trade-offs from a cited source
      • trade-offs between generic
      • eg:
        • a trade-off between cost and benefit without defining what the cost and benefit are.

在这里插入图片描述

5 Semi-Open Relation Extraction

5.1 Task description

  • SORE
    • 提取关系、concept–central information
    • scientific
    • filter out uninformative and incorrect extractions
      • semi-Open
    • 依靠narrow IE和OpenIE的输出
      • 平衡:精确但narrow的IE和无边界不可靠的openIE之间
    • 用于
      • 人类阅读
      • 标注数据

5.2实验设置

  • 数据1279 doc
  • narrow IE:2216 trade-offs
  • Elmo: 附加修饰词,移除停顿词,embedding the remaining sequences
  • K-means:聚类–IDF-weighted
    • 簇的个数不影响
    • ±50正好:通用主题和细粒度主题的一个平衡
  • 专家评估效果
  • sentencePiece
  • OpenIE 5:也在这1279 doc上
  • filter:
    • 保留OPenIE提取:
      • 他的arg中一个或多个属于trade-off arg的簇
    • 省略了OpenIE提取的属于噪音簇的
      • 包含过多数学符号
      • 长的嵌套短语
    • 簇的确定
      • IDF-weighted

5.3 SORE质量分析

  • 可以减少无关和噪声的OIE arg
  • 假设成立:SORE减少uninformative extraction,而没有限制RE
    • 人工评估信息是否丰富(提取的)
      • 许多OPENIE的结果结构不良,但如果信息丰富,这是好的
      • 有用的或者正确的信息,不一定与主题有关
        • 包含无信息arg
        • 包含不完全arg
        • non-sensible:无法感知
        • 不能帮助理解的
      • 随机采样:
        • 存在长句子导致的错误(提取错误/边界错误)
        • 问题很复杂
          • 存在:the arity of relations can be high
          • 许多短语是嵌套的并且表达非动词的关系
      • 结果
        • 信息性增加
        • cohen:0.84

5.4 results

  • 手工检查:相关的提取被保留了
  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值