Aspect-Opinion Correlation Aware and Knowledge-Expansion Few Shot Cross-Domain Sentiment Classificat

qq_45949611

已于 2023-04-05 14:47:59 修改

阅读量286

点赞数

分类专栏： cross domain 文章标签：机器学习人工智能深度学习

于 2023-03-31 20:20:17 首次发布

本文链接：https://blog.csdn.net/qq_45949611/article/details/129821627

版权

cross domain 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1 INTRODUCTION

域不变特征在源域和目标域中情感极性可能不同。如图1：

在这里插入图片描述

在跨领域学习中，我们引入了句法知识结构来捕捉aspect和opinion术语之间的关系特征，旨在解决情感转移错误问题。具体来说，句法知识结构可以为支持底层推理提供关键线索。如图2：

在这里插入图片描述

关系知识图（例如ConceptNet）具有丰富的领域常识知识，有利于领域特定的语义理解，解决了领域特定特征稀缺问题。如图3：

在这里插入图片描述

现有的基于迁移的跨领域情感分类方法可以归纳为三类：基于枢轴提取（pivot extraction）的方法、基于非枢轴提取的方式和基于深度迁移学习的方法。

2 MODEL

首先，在第1阶段，使用来自源域和目标域的未标记数据设计并预训练图特征编码器（即GCN自动编码器），旨在捕捉扩展的常识知识图的图结构特征。在第2阶段，融合图结构特征（由阶段1中的GCN编码器提取）和文本语义特征（由第2阶段中的域适配编码器获得），以在少数（1或5）个支持实例的情况下进行情感分类。

在第一阶段，称为方面意见相关性感知图特征学习，基于ConceptNet构建了一个方面意见相关性认知知识图。然后，利用知识图进行两个自监督任务（即关系分类任务和情感对齐任务），对GCN自动编码器进行预训练，旨在学习方面-意见对的关系知识结构。然后，第二阶段，命名为基于知识扩展的小样本学习，旨在仅在少数支持实例的情况下，通过基于GCN编码器的常识知识图（在阶段1中获得）扩展特定领域特征。此外，并不是所有的关系知识都有利于查询实例的情感分类。支持集中的少量噪声可能会导致特征表示的巨大偏差，如小样本学习场景。受此启发，共享知识意识注意力被设计用于在跨领域学习中选择可转移的知识三元组。最后，来自GCN自动编码器的图特征和来自域适配BERT的文本语义特征被融合用于支持和查询实例。然后，基于只有少数支持实例的原型网络进行情绪分类。

2.1 Problem Definitions

给定具有两个情感极性类别 C∈{Positive,Negative} 的支持集S，一个模型将查询实例q分类为最可能的情感极性 $c_i∈C$ 。S定义如下：

在这里插入图片描述

其中 $c_1,c_2∈C$ ， $(x^j_i,c_i)$ 表示对 $c_i$ 情感极性的支持实例 $x^j_i$ ； $x^j_i$ 被表示为单词序列 { $w_1,w_2,...,w_L$ }，并且L是单词序列的长度； $n_i$ 是属于情绪极性 $c_i$ 的支持实例的数量，在小样本场景中通常很小。小样本跨域情感分类模型在源域中进行训练，并在目标域中进行测试。可以通过执行元任务的集合来提取可转移信息，并将其从源域传播到目标域。具体地，在每个元任务中构造支持集S和查询集Q。查询实例 $q \in Q$ 的情感分类是基于支持集进行的。

2.2 Phase 1: Aspect-Opinion Correlation Aware Graph Feature Learning

2.2.1 Knowledge Graph Construction

关系知识图是基于源域和目标域的大规模未标记文档分别构建的。构建知识图谱包括两个步骤。第一步是基于每个未标记文档的句法知识结构提取aspect-opinion关系三元组。具体来说，对于每个未标记的文档，我们使用标准CoreNLP库来识别每个token的词性以及token之间的依赖关系。属于名词、形容词或副词的token被视为种子节点，并通过依赖关系（即“nsubj”、“advmod”、“amod”、“obj”和“conj”依赖关系）连接在一起。因此，可以基于句法知识结构来提取方面和观点术语之间的关系。例如，如图3所示,获得了aspect-opinion关系三元组（例如"soup $\overset{nsubj}{\rightarrow}$ delicious”），其中“soup”和“delicious”可以分别视为aspect和opinion术语。

其次，利用ConceptNet知识图来链接基于aspect-opinion关系三元组的常识知识三元组。具有相似邻域的节点将具有紧密特征嵌入。例如，如图3所示，aspect术语“soup”和“pizza”共享大部分邻域，这表明它们具有相似的语义特征。利用共享关系知识结构的桥梁，情感特征可以在第二阶段从少数支持实例转移到查询实例。具体来说，基于种子三元组"soup $\overset{nsubj}{\rightarrow}$ delicious”，可以从ConceptNet中提取一跳常识知识三元组（例如，“soup” $\overset{relatedTo}{\rightarrow}$ “meat”, “soup” $\overset{isA}{\rightarrow}$ “food” 等）。这样，对于源域和目标域的未标记文档，具有节点 $v_i∈V$ 和三元组 $(v_i,r_{i,j},v_j)∈\psi$ 的知识图 $G=(V,\psi,R)$ 被构建。其中 $r_{i,j}∈R$ 表示节点 $v_i$ 和 $v_j$ 之间的关系。

2.2.2 Knowledge Graph Pre-Training

如第2.2.1节所述，关系知识图分别由源域和目标域构建。目前，关系图卷积网络（GCN）编码器已被证明具有从给定节点周围的局部邻域在多个推理步骤中积累关系证据的能力。根据Ghosal等人，对于G中的每个节点（即term） $v_i$ ，我们使用两层GCN编码器（它们彼此堆叠）来学习其特征表示 $g_ i$ ，如下所示：

在这里插入图片描述

其中 $N^r_i$ 表示在关系 $r \in R$ 下的节点 $v_i$ 的相邻节点； $\sigma$ 表示诸如ReLU之类的激活函数； $v_i$ 是随机初始化的表示向量； $W_r^{(1/2)}$ 和 $W_0^{(1/2)}$ 表示可学习的参数。

为了学习方面或观点术语的关系知识特征，进行了两个自监督学习任务（即关系分类和情感对齐），以在我们构建的知识图中预训练GCN编码器模型。这两个自监督学习任务分别采用不同的策略来约束GCN编码器学习图特征表示，这有利于模型在第二阶段通过一些支持实例来转移和扩展领域特定的情感特征。具体来说，采用自监督关系分类任务，通过积累关系证据来强制或推动GCN编码器学习图形结构特征。具有相似邻域的节点（即关系知识结构）将具有紧密的特征嵌入，这表明它们具有相似的语义。利用共享关系知识结构的桥梁，情感特征可以在第二阶段从少数支持实例转移到查询实例（例如，由同一观点术语“delicious”描述的方面术语“soup”和“pizza”可以被称为具有相同的情感极性（即，积极），如图3所示）。

此外，情绪对齐任务旨在帮助GCN编码器通过利用aspect-opinion对在文档中的共现特征来捕获它们之间的情绪对齐特征。例如，aspect-opinion对“ $\overleftrightarrow{} product$ ”和“ $\overleftrightarrow{} fast$ ”经常同时出现在同一文档中，并且具有相同的情感极性。aspect-opinion对的情感可以通过其上下文aspect-opinion配对的情感来导出，这有助于情感特征的转移和扩展。

具体地，对于自监督关系分类任务，该模型将来自G中的 $\psi$ 的三元组 $\psi'$ （称为正三元组）和相等数量的负三元组作为输入。注意，负三元组是通过随机修改节点之一或正三元组中的关系来创建的。正样本和负样本都被合并到集合T中，并且它们的标签分别表示为0和1（即y∈{0,1}）。因此，在给定三元组 $v_i,r_{i,j},v_j)∈T$ ，进行二进制分类任务以训练具有交叉熵损失的GCN编码器：

在这里插入图片描述

其中 $s(v_i,r_{i,j},v_j)$ 表示DistMult因子分解得分函数；每个关系 $r \in R$ 都与对角矩阵 $R_r∈\mathbb{R}^{d×d}$ 相关联。

对于自我监督的情绪对齐学习任务，该模型将一次评论中的aspect-opinion关系三元组（称为正三元组）和通过从其他评论中随机选择aspect-opinion关系三元组而创建的相等数量的负三元组作为输入。然后，正三元组和负三元组都被合并到集合P中，并且它们的标签分别表示为0和1（y∈{0,1}）。因此，给定了三元组 $v_i,r_{i,j},v_j)∈P$ ，该模型进行二进制分类任务来训练具有交叉熵损失的GCN编码器：

在这里插入图片描述

其中N表示源域或目标域中未标记评论的数量； $P_k$ 表示第k个未标记评论的aspect-opinion关系三元组集。

最后，通过对每个未标记的文档审查同时执行关系分类任务和情感对齐任务，可以利用交叉熵损失（即 $_G$ 和 $_{align}$ ）对GCN编码器进行优化，旨在引导或迫使GCN编码器捕获图结构特征。

2.3 Phase 2: Knowledge-Expansion based Few-Shot Learning

在这里插入图片描述

2.3.1 Sentence Encoder

给定实例的特征表示可以通过将图结构特征（由GCN编码器编码）和文本语义特征（由域适配BERT编码器编码）与重建损失相融合来获得。具体地说，图特征编码器（即GCN编码器）可以从阶段1获得，该阶段旨在捕获图结构特征。此外，采用了适用于领域的BERT编码器来捕获领域不变和情感感知的文本语义特征。

Graph Feature Encoder
三个模块（即Aspect-Opinion关系三元组提取、关系知识扩展和GCN自动编码器）在两个阶段都是共享的，旨在获得给定实例的图特征表示。与阶段1类似，给定实例x，可以通过标准CoreNLP库基于句法知识结构获得Aspect-Opinion关系三元组。利用方面意见关系三元组，可以通过链接外部知识图ConceptNet来获得实例x的扩展常识知识子图 $G_x$ 。然后，图 $G_x$ 中的每个节点可以由预先训练的GCN编码器编码为d维向量 $v_{node}$ 节点。通过对所有节点的表示进行平均，实例x可以表示为 $x_g$ ，如下所示：

在这里插入图片描述
其中M表示图 $G_x$ 中节点的数量， $v^i_{G_x}∈\mathbb{R}^{d_g}$ 表示实例 x 的图 $G_x$ 的第i个节点的表示。

Domain-Adapted BERT Encoder
为了使BERT适应特定的域（包括源域和目标域），我们进行了在标记级和句子级进行若干预训练任务，通过掩蔽和预测来获得领域不变的情感知识。继Zhou等人后，利用三个表征级别（即情绪感知单词预测、单词情绪预测和情绪预判）和一个句子级别的预测任务（即表情符号预测）来微调BERT编码器。因此，基于预训练的BERT编码器，我们可以获得实例 x 的语义特征表示 $x_w∈\mathbb{R}^{d_w}$ 。

Feature Fusion
每个实例 x 可以分别由图特征编码器和域适配BERT编码器编码为关系知识特征表示 $x_g$ 和语义特征表示 $x_w$ 。图特征编码器和域适配BERT编码器分别编码的特征表示位于不同的嵌入空间中。使用简单级联或平均操作的特征融合将导致原型网络的距离度量存在偏差。为了减少来自GCN编码器和域自适应编码器的特征空间差异，采用具有重建损失（均方误差）的特征映射层，如下所示：

在这里插入图片描述

$W_g∈\mathbb{R}^{d×d}$ ， $W_{recon}∈\mathbb{R}^{d×d}$ ； $b_g$ 和 $b_{recon}$ 是可训练的参数。重建损失是通过使用余弦相似函数来获得的，目的是保持映射操作前后的特征不变。

在这里插入图片描述

因此，给定实例 x 的特征表示 x 可以如下获得：

在这里插入图片描述

2.3.2 Shared-Knowledge Aware Attention

如图3所示，并不是所有的外部知识节点对查询实例都同等重要。为了捕获支持实例和查询实例之间的共享关系知识结构，设计了共享知识感知注意力。具体来说，给定支持实例x和查询实例q，通过链接ConceptNet可以获得相应的两个子图 $G_x$ 和 $G_q$ （即图4中的两个步骤：aspect-opinion关系三元组提取和关系知识扩展）。然后，这两个子图分别由预训练的GCN编码器编码为 $V_{G_x}∈\mathbb{R}^{N_x×d_g}$ 和 $V_{G_q} ∈\mathbb{R}^{N_q×d_g}$ ，其中 $N_x$ 和 $N_q$ 分别是子图 $G_x$ 和 $G_q$ 中的节点数； $d_g$ 表示图形特征表示的尺寸。方程（8）中的图形特征表示 $x_g$ 被方程（12）取代，如下所示：

在这里插入图片描述

$W_{att}∈\mathbb{R}^{d_g×d_g}$ 和 $b_{att}∈\mathbb{R}^{d_g}$ 是可学习的参数； $\alpha_i$ 表示子图 $G_x$ 中的第 i 个节点的重要程度，并且计算如下：

在这里插入图片描述

其中 $\sigma(·)$ 是激活函数 tanh，sum{·}表示向量的所有元素的和。

2.3.3 Prototypical Network

。使用第3.3.1节中描述的语句编码器，支持集S和查询实例q中的支持实例分别被编码为低维向量 $x^j_i$ 和 $x_q$ 。对于具有k个支持实例的每个情绪极性类别 $c_i∈C$ （即2 way k-shot设置），获得类别 $c_i$ 的原型 $p_i$ ，如下所示：

在这里插入图片描述

最后，查询实例q属于情绪极性类别 $c_i∈C$ 的概率如下：

在这里插入图片描述
其中 $\phi$ 表示句子编码器中的所有可训练参数；d(·,·)是两个给定向量的欧几里得距离函数。

2.4 Loss Layer

在这里插入图片描述

其中 $_{softmax}$ 表示阶段2中原型网络的交叉熵损失。

3 EXPERIMENT

3.1 Dataset and Experiment Setting

在跨领域情感分类的亚马逊评论基准数据集上进行了实验。数据集涵盖四个领域：书籍（B）、DVD（D）、电子产品（E）和厨房用具（K）。所有领域的评论都与表示其情绪极性的评级相关联。评级3星的评论被视为负面情绪，4星或5星被视为正面情绪。每个领域有2000条标记评论和大约4000条未标记评论。

具体来说，我们为每个情绪类别 $c_i∈C$ 随机选择K个实例来构建支持集S。查询集Q是通过分别从积极和消极情绪类别中随机选择 |Q|=5 个实例来构造的，其中S∩Q=∅；。我们提出的模型通过执行iter=20000元任务进行了优化。与跨领域情感分类的任务类似，该模型在源领域进行训练，并在目标领域进行测试。所有超参数如表1所示。

在这里插入图片描述

3.2 Result Analysis

3.2.1 Comparison With Few-Shot Learning Baselines

在这里插入图片描述

3.2.2 Comparison With Related Cross-Domain Sentiment Classification Models

在这里插入图片描述

3.2.3 Ablation Study

在这里插入图片描述

3.2.4 Analysis for N-Hop Knowledge Linking Strategy

在这里插入图片描述

3.2.5 Viusalization

我们从积极和消极的类别中随机选择100个支持实例，并将它们编码到跨领域（即从厨房领域到电子领域）情感分类任务中的隐藏嵌入中。然后，我们使用主成分分析（PCA）将它们映射到2D点。如图5所示。具体而言，可以通过与图5a和5d进行比较来评估域适配BERT编码器的有效性。我们可以观察到，对特定领域（即目标领域）特征的语义理解对于跨领域学习具有重要意义。此外，图5b显示了我们提出的模型在没有图特征编码器的情况下的实例嵌入分布。5 b 和5 d评估我们的模型具有方面意见相关性感知图特征学习模块，可以有效地区分同一特征空间中的积极和消极情绪极性。aspect和opinion术语之间的关系有利于跨领域学习，并有效地解决情绪转移错误。最后，我们对我们提出的具有共享知识感知注意力的模型进行了可视化分析。与图5c和5d相比，我们可以发现，具有共享知识注意力模块的模型可以更好地区分特征空间中的积极和消极情绪极性，这可以评估我们模型中注意力策略的有效性。

在这里插入图片描述

qq_45949611

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Aspect-Opinion Correlation Aware and Knowledge-Expansion Few Shot Cross-Domain Sentiment Classificat

cross domain
复制链接

扫一扫

专栏目录