2020百度事件抽取冠军报告分享

TinaGioro

已于 2022-10-07 10:58:03 修改

阅读量359

点赞数

分类专栏：知识图谱文章标签：知识图谱

于 2022-10-06 21:35:22 首次发布

本文链接：https://blog.csdn.net/enchantedowl/article/details/127187856

版权

知识图谱专栏收录该内容

5 篇文章 0 订阅

订阅专栏

问题分析

问题要点

限定领域事件抽取问题（65种事件类型）
多分类、多输出
角色重叠（角色共享）
元素重叠

角色重叠
例1 :伦纳德压哨绝杀,猛龙淘汰76人闯进东部决赛
竞赛行为-胜负: ( 胜者,猛龙)
竞赛行为-晋级: ( 晋级方,猛龙)
元素重叠（命名实体嵌套）
例2 : 2019年运城工业博览会圆满落幕。
组织行为-闭幕: ( 活动名称,运城工业博览会)
组织行为-闭幕: ( 地点,运城)

在这里插入图片描述

模型选择

pipeline or joint approach
so，有没有一个End2End的模型同时完成两个任务

End2End的序列标注模型
标签组合策略
在这里插入图片描述
(竞赛行为-胜负,时间)、
(竞赛行为-胜负,胜者)、( 竞赛行为-胜负，败者).
(竞赛行为-胜负,赛事名称)、( 竞赛行为-晋级,时间)、( 竞赛行为-晋级，晋级方).
(竞赛行为-晋级,晋级赛事) …

模型介绍

常用的Bert/BiLSTM+CRF的序列标注方法能否解决角色重叠和元素重叠问题？No
解决方案：

多层标签指针网络
在这里插入图片描述
多层标签指针网络
● 双序列指针分别识别事件元素的起止位置
● 阈值解码更加灵活
● 多层标签分类网络识别元素的事件类型和角色类型(组合标签)
● 有效解决元素重叠和角色重叠问题

基于BERT的多层标签指针网络事件抽取模型

在这里插入图片描述

用BERT编码得到每个字的向量表示作为共享编码层hs
用两个多标签分类网络分别识别实体的起止位置及对应标签
注意这里是对序列字级别的多标签分类问题。

激活函数：
在这里插入图片描述

基于BERT的多层标签指针网络事件抽取模型一BMPN
在这里插入图片描述

加入全局的事件检测器
将融入词性嵌入的BERT编码的语义表征进行最大池化、然后进行多标签分类（该模块是不单独进行训练，而是将结果直接存到多标签分类网络的输出结果中）全局事件检测可以加速模型的收敛，提升模型效果。

在这里插入图片描述
参考：苏剑林《基于CNN的阅读理解是问答模型：DGCNN》

基于BERT的多层标签指针网络事件抽取模型一BMPN+POS
加入词性嵌入特征, 用jieba进行分词和词性标注,按照B-postag、I-postag和E-postag的形式进行Embedding ,将最终的结果与BERT最后一层的输出进行拼接
在这里插入图片描述
基于BERT的多层标签指针网络事件抽取模型一BMPN+ POS+WE
加入Word Embedding
对输入文本进行分词,然后从腾讯中文词向量中抽取对应的词向量,与词性嵌入向量和BERT的输出进行拼接作为最后的语义表征。

效果：在轻量级别的小bert上有所提升。但对于其他bert没明显效果