读论文《IAF-LG：一个具有局部和全局视角的交互式注意力融合网络，用于基于方面的情感分析》

最新推荐文章于 2024-03-28 18:04:17 发布

原创最新推荐文章于 2024-03-28 18:04:17 发布

· 534 阅读

0 ·

版权

文章标签：

#人工智能 #深度学习

论文专栏收录该内容

7 篇文章

订阅专栏

组会在即，读论文这事也是逃不掉了啊。
这次的论文题目是《IAF-LG: An Interactive Attention Fusion Network With Local and Global Perspective for Aspect-Based Sentiment Analysis》

解决的问题

1.先前的多数工作只局限于aspect的局部上下文(语义)来进行语义学习，这使得评论结构的解释变得复杂化。
2.先前的多数工作剥夺了模型对全局语义学的兴趣，而全局语义学能有效地揭示整个评论结构中传达的语义概念。

于是作者提出一个新的IAF-LG模型，该模型加强局部语义和全局语义之间的交互和知识融合，能有效地执行ABSA任务。局部和全局语义学习的协同影响有助于获得可信的语义，不仅可以理解评论中每个令牌的实际含义，还可以更好地理解解释评论结构，从而更好地进行基于方面的情感预测。

论文模型

在这里插入图片描述以上就是论文的模型，从左往右开始介绍

Input Embedding Layer

这里就是一个BERT的词嵌入没什么好说的

Local Interactive Learning Layer

该层基于方面术语、否定标记和上下文标记的位置信息学习局部语义。此外，该层对aspect间的语义关系进行编码，涉及语义建模、位置上下文建模、融合集成和方面间语义建模四个模块。

Semantic Modeling Module

该模块通过多头注意力网络捕捉token之间的语义依赖关系
在这里插入图片描述
这里的线性层实际上就是对多头注意力的输出乘上了一个权重，最后得到一个语义表征 $X^{sem}$

Positional-Context Modeling Module

否定词在整个评论中有着相当重要的作用，因为它可以让情感极性反转，因此我们需要得到它在整个评论中的正确影响
该模块侧重于根据否定token N和aspect A的位置信息来建模token之间的上下文依赖关系。本文使用位置编码，来获得否定token $n_j$ 和其他token的相对距离。 $p_i=\begin {cases} |i-j_s|, &i<j_s \\ 0, & j_s \le i \le j_f\\ |i-j_f|,&i>j_f \end {cases}$
其中 $j_s$ 和 $j_f$ 分别表示 $n_j$ 的开始和结束指标。 $p_i$ 则是否定token $n_j$ 和其他token的相对距离。
然后将所有的位置信息 $p_i$ 拼接进原本的输入X中。 $X^{neg}=(p_1\oplus...\oplus p_e)\oplus X$ 众所周知，self-attention是不带有位置信息的，序列中任意两个位置的距离在self-attention都是相等的，经过这一步处理后就能让attention注意到否定词的位置信息。
在这里插入图片描述
然后利用masking attention model将输入中的aspect遮住（即置为负无穷），让注意力模型不去看aspect从而去学习未被掩盖的token的上下文知识。学习完成后利用cloze把aspect再填回去，最后通过一个带ReLU门控的前馈网络生成上下文表征 $X^{cox}$

Fusion and Integration Module

该模块目的是通过融合和集成不同的学习表征，创建一个统一的局部语义表征 $X^{Lsem}$ 。通过语义表征和上下文表征之间的映射来完全理解每个token的上下文意义 $X^{fsd}=S(X^{sem},X^{cox})\\=ReLU(X^{sem}W_{X^{sem}})^TDReLU(X^{cox}W_{X^{cox}})$ 这里的S(x,y)是一个叫做对称融合的函数D是一个对角矩阵，我看了一下相关的文献说是通过这种方法能够保留两个矩阵中原本关注的部分，也能提供更多不同部分间的交互。
最终把这几个局部表征拼接起来得到局部语义表征 $X^{Lsem}$ ： $X^{Lsem}=X^{sem}\oplus X^{cox} \oplus X^{fsd}$
至此，IAF - LG就包含基于A（aspect）、N(否定词)和上下文token的位置的可信局部语义。

Inter-Aspect Semantic Modeling Module

该模块利用语义表征 $X^{sem}$ 对aspect间的关系进行建模，将 $X^{sem}$ 拼接到各个aspect中，然后通过基于距离的语义相似度，向 $A^{mem}$ 传递目标aspect项 $a_t$ 的信息创建加权方面记忆 $A^{w\_sem}$ :
$w_i=1-\frac{dist(a_i-a_t)}{value}$ $X_{a_i}^{w\_sem}=w_i*(X_{a_i}^{sem},X_{a_t}^{sem})$ $A^{w\_sem}=\{X_{a_1}^{w\_sem},X_{a_2}^{w\_sem}...X_{a_l}^{w\_sem}\}$
在这里插入图片描述
这里我看了文献也看不明白这个 $w_i$ 是怎么来的，当成未解之谜吧

Global Interactive Learning Layer

该层通过注意力机制耦合局部语义和全局语义来编码可信语义。其中，全局语义通过融合上下文语义、方面间语义和基于评论的情感学习之间通过自注意力的协同交互来实现。

Review-Based Sentiment Modeling Task

在这里插入图片描述
主要就是一个双向的LSTM将过程中的各个隐藏状态 $h_i$ 丢进高斯里面，如果高于均值 $\mu$ 就认为该token为积极的低于就是消极的：
$\varphi(h_i)=\frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}(h_i-\mu)^2}$ 最后透过一个注意力过程得到基于评论的语义表征 $X^{rev}$ : $\delta_i=softmax(W_{h_i^\varphi}h_i^\varphi+b)$ $x_i^{rev}=\delta_i*h_i^\varphi$

Global Semantic Modeling Module

在该模块中，全局语义被表示为局部语义和外部知识信息的组合，即基于评论的情感建模。
在这里插入图片描述
这里依然是一个注意力机制，但是它的Q,K,V分别是 $X^{fsd}$ , $X^{ias}$ , $X^{rev}$ ，作者将两个局部表征互相匹配，将相应的评论情感传递给注意力生成全局语义表示 $X^{Gsem}$ 。