《Attentional Encoder Network for Targeted Sentiment Classification》论文阅读

本文介绍了一种新型的AEN网络,结合RNN和注意力机制处理情感分类任务,特别针对长文本和实体交互。文章提出标签平滑正则化策略,通过嵌入层(Glove和BERT)、注意力机制(Intra-MHA和Inter-MHA)、Point-wise Convolution Transformation以及目标特定注意力层,优化模型性能。
摘要由CSDN通过智能技术生成

文章地址:https://arxiv.org/pdf/1902.09314.pdf

文章内容

  之前处理基于特定方面实体的情感分类大多使用RNN和注意力机制进行建模,然而RNN河南并行化,而且句子过长时也给长期记忆带来困难。因此该问提出了一种注意力编码网络AEN(Attentional Encoder Network),来对上下文和目标实体进行建模。并且该文还提出了标签不可靠性问题,从而引入了标签平滑正则化。

文章方法

在这里插入图片描述

嵌入层

  这里作者采用了两种方式来实现,一个是静态词嵌入Glove,也就是已经训练好的,另一个是BERT模型,作者的构建的方式有2种,对于上下文为“[CLS] + context + [SEP]”,对于目标实体为“[CLS] + target

  • [SEP]”。除此之外作者还做了一个只有BERT的对比模型叫BERT-SPC,其构造方式为“[CLS] + context + [SEP] + target + [SEP]”。

注意力层

  作者这里是借鉴了多头注意里机制设计了2种方式:
Intra-MHA,这里注意力机制的k和v都为context也就是上下文,就是内部注意力机制,公式如下:
在这里插入图片描述Inter-MHA即交互注意力机制,q为context而k为目标实体,也就是要学习目标实体和上下文的交互关系,公式如下:
在这里插入图片描述

Point-wise Convolution Transformation

  在MHA的输出后面作者接了一个逐点卷积变换(PCT),从而进一步提取注意力机制的信息,其中逐点的含义为内核为1的CNN,具体公式如下所示:
在这里插入图片描述

目标特定注意力层

  除了将内部和交互注意力机制各自通过PCT以外,作者还对这二者又应用了一个MHA来获得目标特定的上下文表示(说实话,不太理解物理意义是啥)公式如下所示:
在这里插入图片描述

输出层

  最后的输出就是三者的拼接起来然后接一个平均池化,具体公式如下:
在这里插入图片描述

标签平滑

  标签平滑的思想就是让模型最后的比较结果不是0或1这种硬标签,而是0.1,0.9这样的标签,从而实现一个正则化的目的:
在这里插入图片描述
  这里作者设计的平滑分数就是类别数目的倒数,最终损失计算如下:
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值