DualGCN论文阅读笔记(读不懂你来打我)

DualGCN: Exploring Syntactic and Semantic Information for Aspect-Based Sentiment Analysis

Abstract

之前的GCN模型取决于依赖性分析器,本文使用两个GCN模型,分别用于句法结构和语义的相关性。
提出的DualGCN
SynGCN(句法GCN):同时使用依赖性概率矩阵作为图结构来隐含地整合句法信息。
SemGCN(语义GCN):提升语义信息
Regularizers:提出了正交和差分正则器,通过约束SemGCN模块中的注意力分数来精确捕捉单词之间的语义相关性。

Introduction

ABSA是对一个方面词和其表达的相应意见之间的依赖关系进行建模。通常使用注意力机制解决,然而,由于缺乏语言知识,注意力机制很容易受到句子中噪音的影响。

现如今存在的挑战:(1)依赖性分析器的训练语料库和在ABSA任务中执行的数据集通常在明显不同的领域,依赖性分析结果的不准确性会提高。(2)由于在线评论的非正式表达和复杂性,在对句法依赖不敏感的数据集上,依赖树上的GCNs并没有达到预期的效果。(Twitter)

如何解决挑战:对于第一个挑战,使用来自依赖性分析器的所有依赖弧的概率矩阵来构建基于句法的GCN(SynGCN)。其背后的想法是,与依赖性分析器的最终离散输出相比,代表词与词之间依赖关系的概率矩阵包含更丰富的句法信息。其次,使用自我关注机制构建了一个基于语义相关的GCN(SemGCN)。其背后的想法是,由自我关注形成的关注矩阵,也被看作是一个边缘加权的有向图,可以代表单词之间的语义关联。

两个正则器
为了进一步加强我们的DualGCN模型,我们设计了两个正则器。我们观察到,每个词的语义相关词不应该重叠。因此,我们鼓励单词的注意力概率分布是正交的。为此,我们在SemGCN模块的注意力概率矩阵上加入了一个正交正则器。(之所以这样设计,因为每个单词的 语义应该是不重叠的 所以鼓励他们正交)

此外,从SynGCN和SemGCN模块学到的这两种表征应该包含由句法依赖性和语义关联性所捕获的明显不同的信息。因此,我们期望SemGCN模块能够学习到不同于句法表征的语义表征。因此,我们建议在SynGCN和SemGCN模块之间采用差异化的调节器。

主要贡献:(1)使用双向仿生映射,结合两个GCN。(2)正交正则器鼓励SemGCN网络学习一个正交的语义注意力矩阵。鼓励SemGCN网络学习不同于SynGCN网络所建立的句法特征的语义特征,意思就是更倾向于学习语义特征,因为句法特征已经交给SynGCN了

Related work

By your self

Methodology

DualGCN

整个模型总结:为此,我们首先使用BiLSTM、BERT和其他PLMs的编码器来获得上下文表示。然后,一个句子的隐藏表示被同时输入到SynGCN和SemGCN模块。然后采用BiAffine模块在这两个模块之间进行有效的信息流通。最后,我们通过汇集和连接操作,将来自SynGCN和SemGCN模块的所有方面节点的表示汇总,形成最终的方面表示。一个softmax分类器被用来输出句子-方面对的情感极性。

具体的输入格式即为ABSA任务的通用输入格式

Contextual Representation

模型中,使用BiLSTM、BERT和其他PLM作为句子编码器来提取隐藏的上下文代表。对于BiLSTM编码器来说,输入有三种类型的表示:单词嵌入、词性(POS)标签嵌入和位置嵌入。

备注:词性标注:POS tagging 是歧义消解的一种重要方法,比如打架和一打啤酒,一个是动词,一个是量词,通过词性标注就可以消去歧义。

对于POS标签嵌入,主要的想法是将每个POS标签类型映射为一个实值向量,对于所考虑的句子中的每个词wi,我们根据其POS标签创建一个POS标签嵌入 (可训练的向量)。

位置嵌入pi是根据第1个词wi和方面术语之间的相关距离vi计算的(可训练的)
Position
接下来,我们把句子中所有单词的词嵌入E、POS标签嵌入T和位置嵌入P串联起来,形成最终的单词表征。
从而喂进双向LSTM

另外,作者在这里也说了,如果词嵌入使用的是BERT,那么输入也要遵循BERT的模式,并且,因为Bert使用的词嵌入 WordPiece,因此 在学习句法依赖时候,我们将一个词的依赖关系扩展到它的所有子词。

至此,模型的最底部已经解决完毕,也就是成功解决了GCN的一个输入(我们知道GCN每次迭代喂两个输入)

Syntax-Based GCN

SynGCN模块将句法编码作为输入。为了编码句法信息,我们使用依赖性分析器中所有依赖弧的概率矩阵。
与依赖性分析器的最终离散输出相比,依赖性概率矩阵可以通过提供所有潜在的句法结构来捕获更丰富的结构信息。因此,依存关系概率矩阵被用来缓解依存关系解析的错误。在这里,使用依赖性解析模型LAL-Parser(实验部分有关于使用不同解析器的比较)

通过对邻接矩阵Asyn∈Rn×n的句法编码(就是通过依赖性解析模型得到的矩阵),SynGCN模块将BiLSTM的隐藏状态向量H作为句法图的初始节点表示。
SynGCN

Semantics-Based GCN

SemGCN没有像SynGCN那样使用额外的句法知识,而是通过自我注意机制获得一个注意矩阵作为邻接矩阵。自我关注可以捕获句子中每个词的语义相关术语,这比句法结构更灵活。

因此,SemGCN可以适应那些对句法信息不敏感的在线评论。我们从self-attention开始描述SemGCN。

目的就是适应对句法信息不敏感的在线评论

下面就是如何将两个得到的GCN(句法GCN和语义GCN)结合起来呢?
采用了相互的BiAffine变换作为桥梁。将SynGCN向量投影到SemGCN空间,SemGCN投影到SynGCN空间,交叉引用,递归收敛。
BiAff

Classifier

最后对SynGCN和SemGCN的方面节点进行平均池化和连接操作
Class

Regularizer

到了本论文的另一个创新点了,这也算是重中之重

设计了两个正则化,把他们加入到损失函数中,这样得以学习到我们想要的结果

首先是正交化正则器,由于每个词的相关项目应该在一个句子中的不同区域,所以注意分数的分布很少重叠, 因此,我们希望正则器能鼓励所有词的注意力得分向量之间的正交性。给定一个注意力得分矩阵Asem,正交正则器Ro的表述如下。
Ro

其次,对于差分正则器,期望从SynGCN和SemGCN模块中学习到的两种特征表示代表了句法依赖树和语义关联中包含的不同信息。因此,我们在从SynGCN和SemGCN模块建立的两个邻接矩阵之间采用了一个差分正则器。
Rd

Loss and Training

目标函数就是很正常的目标函数,并且把正则化加入进去
Loss

Experiments

By your self,不懂可以私信或者留言交流
一些消融实验的分析,也主要是用来表明所提出的模块都是有用的。
同时也研究了两个正则器发挥的完美作用

Analysis

此外,DualGCN可以准确地适应包含正式、非正式或复杂审查的数据集。因为建立的句法关系,因此,DualGCN可以在一定程度上避免注意力机制带来的噪音。

**解释了一下GCN的层数问题:**如果层数过多,由于梯度消失和信息冗余,该模型将变得不稳定。从另一个角度解释GCN层数过多的弊端,如果图形卷积有多次迭代,那么每个节点在同一连接域中的表示将趋于收敛到相同的值。

Conclusions

主要就是总结了一下他的方法

提出了一个DualGCN架构来解决ABSA任务中基于注意力和依赖关系的方法的缺点。我们的DualGCN模型通过SynGCN和SemGCN模块整合了句法知识和语义信息。此外,为了有效地捕捉词与词之间的语义关联,我们在SemGCN模块中提出了正交和差异化的正则器。这些正则器可以关注每个词重叠较少的语义相关项目,并捕捉与句法结构不同的特征表示。在基准数据集上进行的大量实验表明,DualGCN模型优于基线。

作者的思考:首先,依赖性分析器是现成的,可以通过用可训练的模块取代它来改进。(类似于transformer中的position Encoding,在Transformer是固定的,在Bert中是可训练的

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值