科研训练第十九-二十二周——关于TNet以及MemNet

最新推荐文章于 2024-11-21 16:27:46 发布

原创最新推荐文章于 2024-11-21 16:27:46 发布 · 1k 阅读

CC 4.0 BY-SA版权

文章标签：

14 篇文章

订阅专栏

本文探讨了TNet通过改进注意力机制和CNN在目标导向情感分类中的应用，与MemNet的高效上下文捕获方法对比，着重介绍了TNet的CPT组件和AS策略。同时，文章分享了编码实现中的挑战与进展，展示了在laptop和restaurant领域的实验结果。

tags:

1. 论文阅读

《Transformation Networks for Target-Oriented Sentiment Classifification》

《Aspect Level Sentiment Classification with Deep Memory Network》

提出了Transformation Networks (TNet)解决Attention机制和CNN本身在ABSC任务上的缺陷（具体缺陷见1.2）

主要贡献：

提出了MemNet模型，利用Attention多层机制来记忆上下文的文本信息，其速度比LSTM要快很多（cpu）
主要贡献：

解释：比如说，“This dish is my favorite and I always get it and never get tired of it.”对其中的dish做注意力机制计算的时候，会引入不相关的词比如“never”“tired”

解释：如句子“great food but the service was dreadful”，对于目标词“food”而言，CNN很难给出“good”和“dreadful”之间合理的抉择

LSTM耗时，并行性弱，同时不能准确捕获基于aspect的上下文信息

结合上图，从下往上解释一下模型部分：

$x_i$ 是原始输入，红色模块是双向LSTM，（因为前人研究表明基于上下文的单词表示是卷积架构中单词的有效表示方式），输出 $h_i$ 是这一层加入上下文关系的单词表示的结果。 $h_i=[LSTM_{left->right}(x_i);LSTM_{right->left}(x_i)],i∈[1,n]$
灰色模块是CPT（上下文保存转换），主要作用是引入target到单词表示中来没有用传统的attention计算的权重来做……而是用了自己设计的TST模块，同时强调CPT是多层的

TST组件从下往上介绍：
- 双向LSTM获取目标词的表示 $h^{\tau}$
- 将上一步的 $h^{\tau}$ 动态地与句子中地单词 $w_i$ 关联起来，异变在时间步时定制目标表示 $KaTeX parse error: Expected 'EOF', got '}' at position 11: r_i^{\tau}}̲$
- 全连接层，获取第 $i$ 个目标词的表示
- LF/AS：TST之后，由Bi-LSTM得到的上下文信息会丢失，为了利用上下文信息，这里提出了两种策略LF和AS
  - LF：无损转发，模型一开始红色Bi-LSTM生成的表示和TST生成的表示直接相加
  - AS：自适应缩放，引入参数 $W$ 和 $b$ ，学习模型应该保留多少一开始红色Bi-LSTM生成的表示和多少TST生成的表示。相当于引入了门控机制。