TNet--阅读笔记

最新推荐文章于 2023-01-13 18:14:31 发布

若澜_

最新推荐文章于 2023-01-13 18:14:31 发布

阅读量680

点赞数

分类专栏：笔记文章标签： python 深度学习 ABSA

本文链接：https://blog.csdn.net/sydney__/article/details/119115893

版权

笔记专栏收录该内容

11 篇文章 2 订阅

订阅专栏

《Transformation Networks for Target-Oriented Sentiment Classification》笔记

论文题目：Transformation Networks for Target-Oriented Sentiment Classification

论文链接：https://aclanthology.org/P18-1087
知乎链接：https://zhuanlan.zhihu.com/p/393348516

这篇是18年ACL上的文章，提出Tnet模型，当前对ABSA的研究大多集中于rnn+attention，且大多是对attention机制的改进，从单一到多级、粗粒度到细粒度，还有各个机制的引进gru,cnn,gcn等，首先是最开始提出的TDLSTM用LSTM来捕捉target words和context words的信息，再是AT-LSTM模型，加入attention机制，计算上下文各单词对aspect重要程度，再到IAN模型提出交互注意力机制，前提在于认为target和context相互影响对方，再到MGAN提出多粒度网络。人们对于情感的表达往往是复杂的，基于注意力的权重特征提取可能会引入杂质信息，例如文中的例子：“This dish is my favorite and never get tired of it.”，在分析对dish的情感的时候会受到never,tired等单词信息的干扰，在这些情况下目标情感仅仅是由“is my favorite”决定的，所以作者引入cnn来提取这样的局部特征，但是cnn很难区分出不同目标的意见词。所以针对上述问题，作者提出一种新的架构，关键不同之处在于引入一种目标特定转换组件来注意对不同目标的词语的信息获取，其是会针对上下文来产生目标特征(不同单词在不同语境下的情感含义可能不同，例如 long battery life与long startup time )，再将每个上下文单词与目标表示合并。

1. 模型结构

模型架构如下：

在这里插入图片描述

首先是将目标向量和上下文向量经过一个嵌入层获得嵌入目标向量 x^t= { $x^T_1$ , $x^T_2$ , …, $x^T_m$ } 和上下文向量 x =
{ $x_1$ , $x_2$ , …, $x_n$ }

Bi-directional LSTM Layer

将上下文向量x =
{ $x_1$ , $x_2$ , …, $x_n$ }通过Bi-lstm结构来获取上下文信息，得到隐藏向量 $h^{(0)}$ = { $h^{(0)}_1$ , $h^{(0)}_2$ ， …, $h^{(0)}_n$ }

CPT

中间是由L个CPT组件构成，其能够保护上下文信息和学习到更抽象的特征

cpt组件内部结构如下图。
在这里插入图片描述

其目的是学习特定于目标的单词表示

TST

绿色部分是生成特定的目标表示，其也是个bilstm结构，以目标向量为输入，得到隐藏向量，然后与单个单词关联：
在这里插入图片描述

F函数是计算第j个目标单词与第i个上下文单词间的相关性，其具体计算公式如下：

在这里插入图片描述

然后再连接 $r^T_i$ 和 $h^{(l)}_i$ 通过一个全连接层得到 $\widetilde{h}^{(l)}_i$

在这里插入图片描述

Context-Preserving Mechanism

经过非线性的TST后bilstm捕捉的上下文信息可能会丢失，所有作者提出两种策略LF/AS,将上下文信息能无损传递到下一层

LF是通过直接将前一层的经过bilstm获得的隐藏向量直接相加
在这里插入图片描述

AS是设置了两个门，同gru中的更新门，公式如下。

在这里插入图片描述

Convolutional Feature Extractor

然后就是卷积层，先是对单词与目标词间的位置进行编码，再提取信息特征。

在这里插入图片描述

其中i是上下文单词坐标，k是目标单词坐标，用位置编码信息来帮助CNN获取到更重要的信息

在这里插入图片描述

可以看到离目标单词越近的单词越突出，然后进行特征提取
在这里插入图片描述

2. 实验结果

在这里插入图片描述

(比同期的MGAN也好点)

3. 总结

可以看到作者考虑了很多…首先是设置bilstm获取文本上下文信息，然后设置TST机制动态获取target与上下文单词信息，其中让上下文可以动态调整target向量，针对上下文获得特殊的target向量表征，然后计算target向量与各单词的相关性，经过非线性变换，又考虑到可能会有上下文信息的丢失设置LF/AS机制使其能无损传递上下文信息，然后考虑到TST中attention机制缺陷（容易引入杂质信息），又设置卷积层来提取离目标较近的重要信息。这一套套下来成为当时的SOTA。

若澜_

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
TNet--阅读笔记

《Transformation Networks for Target-Oriented Sentiment Classification》笔记论文题目：Transformation Networks for Target-Oriented Sentiment Classification论文链接：https://aclanthology.org/P18-1087知乎链接：https://zhuanlan.zhihu.com/p/393348516这篇是18年ACL上的文章，提出Tnet模型，当前对
复制链接

扫一扫

专栏目录