信息抽取笔记1

没咋了

已于 2023-03-02 18:26:55 修改

阅读量157

点赞数

文章标签：知识图谱人工智能

于 2023-03-02 18:16:22 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_53371353/article/details/129304208

版权

目录

信息抽取：

信息抽取分类：

信息抽取的通用评测指标：

编辑抽取模型的关键要素：解码设计

命名实体识别的三中标注方法：

实体抽取：

复杂实体抽取中的问题

关系抽取：

关系分类：

使用序列标注解决关系抽取：

复杂关系抽取中的问题：

关系抽取的其他问题

事件抽取：

信息抽取：

定义：自动从无结构或半结构的文本中抽取出结构化信息的任务。

信息抽取分类：

根据抽取结果在不在原文中对信息抽取分类：

抽取式
生成式

根据抽取结果结构对信息抽取分类：

实体
关系
事件

信息抽取的通用评测指标：

抽取模型的关键要素：解码设计

解码设计：标注标签到结构化信息的转换过程，是一个抽取模型的核心

序列标注：单或多类别标注，常用BIO解码
Pointer：标注抽取结果的start和end
Token Pair：对句子中的字两两之间标注类别

命名实体识别的三中标注方法：

BMES 四位序列标注法：B：一个词的词首位值，M：一个词的中间位置，E：一个词的末尾位置，S表示一个单独的字词。
BIO 三位标注：（B-begin，I-inside，O-outside）。B-X 代表实体X的开头，I-X代表实体的中间，O代表不属于任何类型
BIOES（B-begin，I-inside，O-outside，E-end，S-single）。B 表示开始，I表示内部， O表示非实体，E实体尾部，S表示该词本身就是一个实体。

实体抽取：

定义：即从一段文本中抽取出文本内容，并识别为预定义的类别。

使用CRF的实体抽取解码设计：

BIO（例子中类别C为检查，B-X 代表实体X的开头，I-X代表实体的中间）
- 解决：普通实体识别问题
- 模型：CRF条件随机场

复杂实体抽取中的问题

1、重叠嵌套：原文中多个实体之间共享片段

2、不连续：一个实体由多个不连续片段组成

关系抽取：

定义：从文本中抽取出一对实体和预定义的关系类型，得到包含语义信息的实体关系三元组。关系是有方向的，抽取的两个实体一般称作头实体（HeadEntity）和尾实体（TailEntity）。

难点：关系重叠，实体对组合等。

解码方式：BIO，Pointer，TPLinker等。

关系抽取步骤：第一步：实体抽取，抽取句子中所有的实体。第二步：关系分类，使用一对实体和句子进行关系判断。

通常分多步抽取的模型方案叫做Pipeline，只用一次模型抽取的方案叫做Joint。

关系分类：

定义：给定一对实体和原文，判断实体之间的关系类型。关系分类是关系抽取的子问题。

使用序列标注解决关系抽取：

Ref：Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme

复杂关系抽取中的问题：

1、关系重叠：一个实体属于多个关系

使用多分类序列标注解决重叠关系抽取

Ref：LIC2021关系抽取基线https://aistudio.baidu.com/aistudio/projectdetail/1639963

2、实体对组合：实体对有多重组合方式，怎么选

使用阶段预测标注解决实体对组合

Ref：A Novel Cascade Binary Tagging Framework for Relational Triple Extraction

Ref：TPLinker: Single-stage Joint Extraction of Entities and Relations Through Token Pair Linking

关系抽取的其他问题

事件抽取：

定义：从一段文本中抽取出预定义的事件触发词和事件要素，组合为相应的结构化信息。除了事件，实际应用中信息抽取的结果可能更加复杂，但都可以把事件（或其他复杂结构）变成关系抽取问题进行解决。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
信息抽取笔记1

知识抽取学习笔记
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。