目录
信息抽取:
定义:自动从无结构或半结构的文本中抽取出结构化信息的任务。
信息抽取分类:
根据抽取结果在不在原文中对信息抽取分类:
- 抽取式
- 生成式
根据抽取结果结构对信息抽取分类:
- 实体
- 关系
- 事件
信息抽取的通用评测指标:
抽取模型的关键要素:解码设计
解码设计:标注标签到结构化信息的转换过程,是一个抽取模型的核心
- 序列标注:单或多类别标注,常用BIO解码
- Pointer:标注抽取结果的start和end
- Token Pair:对句子中的字两两之间标注类别
命名实体识别的三中标注方法:
- BMES 四位序列标注法:B:一个词的词首位值,M:一个词的中间位置,E:一个词的末尾位置,S表示一个单独的字词。
- BIO 三位标注:(B-begin,I-inside,O-outside)。B-X 代表实体X的开头,I-X代表实体的中间 ,O代表不属于任何类型
- BIOES(B-begin,I-inside,O-outside,E-end,S-single)。B 表示开始,I表示内部, O表示非实体 ,E实体尾部,S表示该词本身就是一个实体。
实体抽取:
定义:即从一段文本中抽取出文本内容,并识别为预定义的类别。
使用CRF的实体抽取解码设计:
- BIO(例子中类别C为检查,B-X 代表实体X的开头,I-X代表实体的中间)
- 解决:普通实体识别问题
- 模型:CRF条件随机场
复杂实体抽取中的问题
1、重叠嵌套:原文中多个实体之间共享片段
2、不连续:一个实体由多个不连续片段组成
关系抽取:
定义:从文本中抽取出一对实体和预定义的关系类型,得到包含语义信息的实体关系三元组。关系是有方向的,抽取的两个实体一般称作头实体(HeadEntity)和尾实体(TailEntity)。
难点:关系重叠,实体对组合等。
解码方式:BIO,Pointer,TPLinker等。
关系抽取步骤:第一步:实体抽取,抽取句子中所有的实体。第二步:关系分类,使用一对实体和句子进行关系判断。
通常分多步抽取的模型方案叫做Pipeline,只用一次模型抽取的方案叫做Joint。
关系分类:
定义:给定一对实体和原文,判断实体之间的关系类型。关系分类是关系抽取的子问题。
使用序列标注解决关系抽取:
Ref:Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme
复杂关系抽取中的问题:
1、关系重叠:一个实体属于多个关系
使用多分类序列标注解决重叠关系抽取
Ref:LIC2021关系抽取基线https://aistudio.baidu.com/aistudio/projectdetail/1639963
2、实体对组合:实体对有多重组合方式,怎么选
使用阶段预测标注解决实体对组合
Ref:A Novel Cascade Binary Tagging Framework for Relational Triple Extraction
Ref:TPLinker: Single-stage Joint Extraction of Entities and Relations Through Token Pair Linking
关系抽取的其他问题
事件抽取:
定义:从一段文本中抽取出预定义的事件触发词和事件要素,组合为相应的结构化信息。除了事件,实际应用中信息抽取的结果可能更加复杂,但都可以把事件(或其他复杂结构)变成关系抽取问题进行解决。