TENER: Adapting Transformer Encoder for Named Entity Recogni

 

论文要点

这篇文章应该是第一篇使用Transformer取得比较好效果的论文,分析了Transformer的特性,同时提出两种改进:

  • 原本position embedding只体现了距离,但没有方向性,NER中方向性是非常重要的,故而使用相对距离的方法表示

0

 

  • 【基于直觉】对于NER任务,可能几个上下文关键词就可以帮助判断,故而应该增强这些关键词的作用,而原始Transformer会有scale过程削弱这些词作用,故而使用un-scaled、sharp的Attention,增强稀疏性

 

模型框架:

https://note.youdao.com/yws/public/resource/af2266b15f2d544333a361885a4d86f0/xmlnote/F82F1CDBB91145F78BCB638EF9D5B005/9776

  1. emb由两部分组成,char_emb经过Self-Attention,然后与word emb拼接到一起
  2. 拼接结果再经过多层Transformer,然后CRF预测
  • Transformer改进:
    • position emb改进:
      • 原公式中,若以Q·K计算,pos emb部分计算结果只与绝对距离有关,而以QWK计算,则没什么直观意义:

0

 

                      改进该部分公式为:

0

其中:R_{t-j}直接计算了两个token相对距离关系,t-j 是相对距离存正负,cos(-x) = cos(x)捕捉绝对距离关系,sin(-x) = -sin(x)捕捉方向性

0

 

  • 原始Transformer公式中,会在Softmax时作一个缩放,但这篇论文表明,没有这个缩放效果会更好

0

模型效果:

0

模型缺点:

  1. 模型输入为char+word的形式,需要分词、word_emb,词部分存OOV
  2. QV 方向
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值