《Attentional Encoder Network for Targeted Sentiment Classification》论文阅读

jst100

已于 2022-07-10 17:12:26 修改

阅读量427

点赞数

文章标签：人工智能机器学习自然语言处理

于 2022-07-07 21:15:07 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jst100/article/details/125666955

版权

本文介绍了一种新型的AEN网络，结合RNN和注意力机制处理情感分类任务，特别针对长文本和实体交互。文章提出标签平滑正则化策略，通过嵌入层（Glove和BERT）、注意力机制（Intra-MHA和Inter-MHA）、Point-wise Convolution Transformation以及目标特定注意力层，优化模型性能。

摘要由CSDN通过智能技术生成

文章地址：https://arxiv.org/pdf/1902.09314.pdf

文章目录

文章内容

之前处理基于特定方面实体的情感分类大多使用RNN和注意力机制进行建模，然而RNN河南并行化，而且句子过长时也给长期记忆带来困难。因此该问提出了一种注意力编码网络AEN（Attentional Encoder Network），来对上下文和目标实体进行建模。并且该文还提出了标签不可靠性问题，从而引入了标签平滑正则化。

文章方法

在这里插入图片描述

嵌入层

这里作者采用了两种方式来实现，一个是静态词嵌入Glove，也就是已经训练好的，另一个是BERT模型，作者的构建的方式有2种，对于上下文为“[CLS] + context + [SEP]”，对于目标实体为“[CLS] + target

[SEP]”。除此之外作者还做了一个只有BERT的对比模型叫BERT-SPC，其构造方式为“[CLS] + context + [SEP] + target + [SEP]”。

注意力层

作者这里是借鉴了多头注意里机制设计了2种方式：
Intra-MHA,这里注意力机制的k和v都为context也就是上下文，就是内部注意力机制，公式如下：
在这里插入图片描述 Inter-MHA即交互注意力机制，q为context而k为目标实体，也就是要学习目标实体和上下文的交互关系，公式如下：

Point-wise Convolution Transformation

在MHA的输出后面作者接了一个逐点卷积变换（PCT），从而进一步提取注意力机制的信息，其中逐点的含义为内核为1的CNN，具体公式如下所示：
在这里插入图片描述

目标特定注意力层

除了将内部和交互注意力机制各自通过PCT以外，作者还对这二者又应用了一个MHA来获得目标特定的上下文表示（说实话，不太理解物理意义是啥）公式如下所示：
在这里插入图片描述

输出层

最后的输出就是三者的拼接起来然后接一个平均池化，具体公式如下：
在这里插入图片描述

标签平滑

标签平滑的思想就是让模型最后的比较结果不是0或1这种硬标签，而是0.1,0.9这样的标签，从而实现一个正则化的目的：
在这里插入图片描述
这里作者设计的平滑分数就是类别数目的倒数，最终损失计算如下：

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
《Attentional Encoder Network for Targeted Sentiment Classification》论文阅读

文章地址：https://arxiv.org/pdf/1902.09314.pdf 之前处理基于特定方面实体的情感分类大多使用RNN和注意力机制进行建模，然而RNN河南并行化，而且句子过长时也给长期记忆带来困难。因此该问提出了一种注意力编码网络AEN（Attentional Encoder Network），来对上下文和目标实体进行建模。并且该文还提出了标签不可靠性问题，从而引入了标签平滑正则化。这里作者采用了两种方式来实现，一个是静态词嵌入Glove，也就是已经训练好的，另一个是BERT模型，作者
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。