2020百度事件抽取冠军报告分享

问题分析

问题要点

限定领域事件抽取问题(65种事件类型)
多分类、多输出
角色重叠(角色共享)
元素重叠

角色重叠
例1 :伦纳德压哨绝杀,猛龙淘汰76人闯进东部决赛
竞赛行为-胜负: ( 胜者,猛龙)
竞赛行为-晋级: ( 晋级方,猛龙)
元素重叠(命名实体嵌套)
例2 : 2019年运城工业博览会圆满落幕。
组织行为-闭幕: ( 活动名称,运城工业博览会)
组织行为-闭幕: ( 地点,运城)

在这里插入图片描述

模型选择

pipeline or joint approach
so,有没有一个End2End的模型同时完成两个任务

End2End的序列标注模型
标签组合策略
在这里插入图片描述
(竞赛行为-胜负,时间)、
(竞赛行为-胜负,胜者)、( 竞赛行为-胜负,败者).
(竞赛行为-胜负,赛事名称)、( 竞赛行为-晋级,时间)、( 竞赛行为-晋级,晋级方).
(竞赛行为-晋级,晋级赛事) …

模型介绍

常用的Bert/BiLSTM+CRF的序列标注方法能否解决角色重叠和元素重叠问题?No
解决方案:

多层标签指针网络
在这里插入图片描述
多层标签指针网络
● 双序列指针分别识别事件元素的起止位置
● 阈值解码更加灵活
● 多层标签分类网络识别元素的事件类型和角色类型(组合标签)
● 有效解决元素重叠和角色重叠问题

基于BERT的多层标签指针网络事件抽取模型

在这里插入图片描述

用BERT编码得到每个字的向量表示作为共享编码层hs
用两个多标签分类网络分别识别实体的起止位置对应标签
注意这里是对序列字级别的多标签分类问题。

激活函数:
在这里插入图片描述

基于BERT的多层标签指针网络事件抽取模型一BMPN
在这里插入图片描述

加入全局的事件检测器
将融入词性嵌入的BERT编码的语义表征进行最大池化、然后进行多标签分类(该模块是不单独进行训练,而是将结果直接存到多标签分类网络的输出结果中)全局事件检测可以加速模型的收敛,提升模型效果。

在这里插入图片描述
参考:苏剑林《基于CNN的阅读理解是问答模型:DGCNN》

基于BERT的多层标签指针网络事件抽取模型一BMPN+POS
加入词性嵌入特征, 用jieba进行分词和词性标注,按照B-postag、I-postag和E-postag的形式进行Embedding ,将最终的结果与BERT最后一层的输出进行拼接
在这里插入图片描述
基于BERT的多层标签指针网络事件抽取模型一BMPN+ POS+WE
加入Word Embedding
对输入文本进行分词,然后从腾讯中文词向量中抽取对应的词向量,与词性嵌入向量和BERT的输出进行拼接作为最后的语义表征。
在这里插入图片描述
效果:在轻量级别的小bert上有所提升。但对于其他bert没明显效果

实验结果

对主体模型BMPN进行一些小的调整 :
●Baseline模型- BERT + CRF
●主体模型 一 BMPN
●主体模型加入词性嵌入 — BMPN + POS
●在编码层后增加一个BILSTM层 – BMPN + POS + BILSTM
●加入对抗训练 BMPN + POS + 对抗训练

在这里插入图片描述

BMPN VS BERT+CRF
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

TinaGioro

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值