信息抽取笔记1

目录

信息抽取:

信息抽取分类:

信息抽取的通用评测指标:

​编辑抽取模型的关键要素:解码设计

命名实体识别的三中标注方法:

实体抽取:

复杂实体抽取中的问题

关系抽取:

关系分类:

 使用序列标注解决关系抽取:

 复杂关系抽取中的问题:

关系抽取的其他问题

​事件抽取


信息抽取:

定义:自动从无结构或半结构的文本中抽取出结构化信息的任务。

信息抽取分类:

根据抽取结果在不在原文中对信息抽取分类:

  • 抽取式
  • 生成式

 根据抽取结果结构对信息抽取分类:

  • 实体
  • 关系
  • 事件

信息抽取的通用评测指标:

抽取模型的关键要素:解码设计

解码设计:标注标签到结构化信息的转换过程,是一个抽取模型的核心

  1. 序列标注:单或多类别标注,常用BIO解码
  2. Pointer:标注抽取结果的start和end
  3. Token Pair:对句子中的字两两之间标注类别

命名实体识别的三中标注方法:

  1. BMES  四位序列标注法:B:一个词的词首位值,M:一个词的中间位置,E:一个词的末尾位置,S表示一个单独的字词。
  2. BIO  三位标注:(B-begin,I-inside,O-outside)。B-X 代表实体X的开头,I-X代表实体的中间 ,O代表不属于任何类型
  3. BIOES(B-begin,I-inside,O-outside,E-end,S-single)。B 表示开始,I表示内部, O表示非实体 ,E实体尾部,S表示该词本身就是一个实体。

实体抽取:

定义:即从一段文本中抽取出文本内容,并识别为预定义的类别。

使用CRF的实体抽取解码设计:

  • BIO(例子中类别C为检查,B-X 代表实体X的开头,I-X代表实体的中间)
    • 解决:普通实体识别问题
    • 模型:CRF条件随机场

复杂实体抽取中的问题

1、重叠嵌套:原文中多个实体之间共享片段

 2、不连续:一个实体由多个不连续片段组成

关系抽取:

定义:从文本中抽取出一对实体和预定义的关系类型,得到包含语义信息的实体关系三元组。关系是有方向的,抽取的两个实体一般称作头实体(HeadEntity)和尾实体(TailEntity)。

难点:关系重叠,实体对组合等。

解码方式:BIO,Pointer,TPLinker等。

关系抽取步骤:第一步:实体抽取,抽取句子中所有的实体。第二步:关系分类,使用一对实体和句子进行关系判断。

通常分多步抽取的模型方案叫做Pipeline只用一次模型抽取的方案叫做Joint

关系分类:

定义:给定一对实体和原文,判断实体之间的关系类型。关系分类是关系抽取的子问题。

 使用序列标注解决关系抽取:

Ref:Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme 

 复杂关系抽取中的问题:

1、关系重叠:一个实体属于多个关系

使用多分类序列标注解决重叠关系抽取

 Ref:LIC2021关系抽取基线https://aistudio.baidu.com/aistudio/projectdetail/1639963

2、实体对组合:实体对有多重组合方式,怎么选 

使用阶段预测标注解决实体对组合

Ref:A Novel Cascade Binary Tagging Framework for Relational Triple Extraction

Ref:TPLinker: Single-stage Joint Extraction of Entities and Relations Through Token Pair Linking

关系抽取的其他问题

事件抽取:

定义:从一段文本中抽取出预定义的事件触发词事件要素,组合为相应的结构化信息。除了事件,实际应用中信息抽取的结果可能更加复杂,但都可以把事件(或其他复杂结构)变成关系抽取问题进行解决。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值