On the Strength of Sequence Labeling and Generative Modelsfor Aspect Sentiment Triplet Extraction

CodeWang_NC

已于 2023-09-10 15:47:55 修改

阅读量461

点赞数

分类专栏： ABSA方面级别情感分析文献阅读文章标签：论文阅读

于 2023-09-10 00:29:54 首次发布

本文链接：https://blog.csdn.net/qq_45056135/article/details/132784249

版权

ABSA方面级别情感分析同时被 2 个专栏收录

15 篇文章 31 订阅

订阅专栏

文献阅读

10 篇文章 8 订阅

订阅专栏

On the Strength of Sequence Labeling and Generative Modelsfor Aspect Sentiment Triplet Extraction (2023 ACL )

依赖序列标注和生成方面模型情感三元组提取研究
论文地址: https://aclanthology.org/2023.findings-acl.762.pdf
代码地址: https://github.com/NLPWM-WHU/SLGM

1. 介绍(摘要)

生成模型在方面情感三元组抽取任务中取得了很大的成功。
然而，现有的方法忽略了方面词和意见词之间的相互信息线索，可能会产生错误的三元组对。此外，生成模型固有的局限性，即逐个标记的解码和简单的结构化提示，使得模型无法处理复杂的结构，特别是多个单词跨度的术语和多个三元组的句子。
为了解决这些问题，我们提出了一个序列标记增强生成模型。
首先，我们将aspect和opinion之间的依赖关系编码到两个双向模板中，以避免错误配对的三元组。
其次，我们引入了一个面向标记的序列标记模块，以提高生成模型处理复杂结构的能力。
具体来说，这个模块使生成模型能够捕获方面/观点范围的边界信息，并提供使用共享标记解码多个三元组的提示。
在四个数据集上的实验结果证明，我们的模型产生了一个新的先进的性能。我们的代码和数据可以在https://github.com/NLPWM-WHU/SLGM上找到。

1.1 科学问题

现有的方法忽略了方面词和意见词之间的相互信息线索，可能会产生错误的三元组对。
此外，生成模型固有的局限性，即逐个标记的解码和简单的结构化提示，使得模型无法处理复杂的结构，特别是多个单词跨度的术语和多个三元组的句子。

1.2 方法

首先，我们将aspect和opinion之间的依赖关系编码到两个双向模板中，以避免错误配对的三元组。
其次，我们引入了一个面向标记的序列标记模块，以提高生成模型处理复杂结构的能力。
具体来说，这个模块使生成模型能够捕获方面/观点范围的边界信息，并提供使用共享标记解码多个三元组的提示。

1.3 创新点/贡献

我们设计了两个具有不同解码顺序的双向模板，以同时捕获方面和意见术语之间的相互依赖性。特别地，我们在输入句子之前添加两种类型的提示前缀以指示解码顺序，并且我们还提出了两个输出模板 $ψ a \to o$ 和 $ψ o \to a$ ，它们都由标记 ${aspect，opinion，sentiment\}$ 和相应的标签 ${a，o，s\}$ 组成。
我们提出了一个面向标记的序列标记 $MOS L$ 模块，它可以提高生成模型的能力，以处理复杂的结构。
我们在四个数据集上进行了广泛的实验，包括全监督和低资源设置。结果表明，我们的模型显着优于国家的最先进的ASTE任务的基线。

2. 任务案例

ASTE任务案例

3. 模型架构

SLGM 任务架构

4. 方法

4.1 方法定义

给定具有L个词的评论句子X，ASTE的目标是提取X中的所有三元组 $\{(a，o，s)\}^N_{i =1}$ ，其中N是三元组的数量，并且 $a$ 、 $o$ 和 $s$ 分别表示方面术语、观点术语和情感极性。
(1) 为了捕获方面和意见术语之间的互信息，我们在输入和输出端构建了两个双向模板，如图中的 $X_a$ / $X_o$ 和 $ψ a \to o$ | $ψ o \to a$ 所示。
(2) 为了处理复杂的结构，我们提出了一个面向标记的序列标记(MOSL)模块来捕获多字方面/意见术语的边界信息和多个三联体的共享标记信息。

4.2 双向模板

对于输入评论 $X$ ，我们通过添加两种类型的提示前缀，即" $\; first:$ "和" $\; first$ ："来构造两个句子 $X_a$ 和 $X_o$ 。当我们用这些模板对模型进行微调时，这样的前缀可以提示模型生成具有特定解码顺序的目标序列。
为了以生成方式获得输出三元组 $T$ ，必要的步骤是在训练期间将三元组 $T$ 线性化为目标序列 $Y$ ，并且在推断期间从预测序列中解线性化三元组。特别是，一个好的输出模板应该：
1）确保线性化的靶序列可以容易地去线性化为三元组的集合，
2）包含特定标记以促进标记的解码过程，
3）自由改变标记的顺序。基于上述考虑，我们提出了两个基于标记的模板 $ψ a - o$ 和ψ $o - a$ ，它们在方面和观点术语之间具有不同的解码顺序，如下所示：
$ψ_{a→o} → aspect : a, \; opinion : o, \; sentiment : s$
$ψ_{o→a} → opinion : o, \; aspect : a, \; sentiment : s$
我们的输出模板由两部分组成：标记 ${aspect，opinion，sentiment\}$ 和对应的标签 ${a，o，s\}$ 。标记可以引导模型在下一步骤生成特定类型的标记。当输入审查包含几个三元组时，我们需要对三元组的顺序进行排序，以确保目标序列的唯一性。对于模板 $ψ a \to o$ ，我们按照方面术语的结束索引按升序对三元组进行排序。如果一些三元组共享相同的方面术语，我们进一步按照意见术语的结束索引对它们进行排序。在获得三元组的文本片段后，我们使用特殊符号[SSEP]连接这些片段以形成最终的目标序列。

4.3 模板引导的文本生成

为了简单起见，我们以句子 $X_a$ 和基于模板 $ψ a - o$ 的对应目标序列 $Ya$ 作为示例进行说明。我们首先将 $X_a$ 输入到 $T r an s f or m er$ 编码器中，以获得上下文特征 $H^{enc}$ ：( $T5_{base}$ 模型)
$H^{enc} = Encoder(X_a)$
然后，我们使用Transformer解码器来生成目标序列 $Ya$ 。在第 $t$ 个时间步，解码器将基于上下文特征 $H^{enc}$ 和先前解码的令牌 $y_{[1：t-1]}$ 来计算解码器隐藏状态 $h_t$ 。
$h^t = Decoder(y_{[1:t−1]},H^{enc})$
接下来，用 $h_t$ 计算令牌 $y_t$ 的条件概率:
$p(y_t|H^{enc}; y_{[1:t−1]}) = softmax(W^Th_t)$
其中W是变换矩阵。最后，我们计算解码器输出与目标序列Ya之间的交叉熵损失La→o g:
$L^{a\rightarrow o}_g= \sum_{i=1}^{L} log \; p(y_t|H^{enc};Y_{[1:t−1]})$

4.4 面向标记的序列标记(MOSL)

在 $MOS L$ 中，我们将通过序列标记来标记方面和意见术语。我们首先用两个线性变换从上下文特征 $H^{enc}$ 中提取方面特征 $H^a = \{h^a_1, h^a_2，···，h^a_L\} ∈ R^{L×d}$ (L为句子长度)和意见特征 $H^a = \{h^o_1, h^o_2，···，h^o_L\} ∈ R^{L×d}$ :
$H^a = MLP_a(H^{enc}), H^o = MLP_o(H^{enc})$
将标记对应的解码器的最后一个隐藏状态作为标记特征，包括方面标记特征 $M^a = \{M^a_1, M^a_2，···，M^a_N\}$ (N为三元组个数)和意见标记特征 $M^a = \{M^o_1, M^o_2，···，M^o_N\}$ 。然后我们计算用于序列标记的 $m^a_i∈M^a$ 或 $m^o_ i∈M^o$ 的面向标记的特征:
$q^a_{ij} = σ(W_1(h^a_j ⊕m^a_i ) + b_1)$
$q^o_{ij} = σ(W_1(h^o_j ⊕m^o_i ) + b_1)$
其中σ(·)是selu激活函数， $h^a_j ∈H^a$ , $h^o_j∈H^o$ 是 $a s p ec t / o p ini o n$ 特征。 $W$ 和 $b$ 是变换矩阵和偏差。当输入的句子包含多个三元组时，不同位置的方面/意见标记特征对应不同的标记， $Y^{ma}_{i} = \{y^{ma}_{i1}, y^{ma}_{i2}，···，y^{ma}_{iL}\}$ 表示 $Y^{ma}$ , $Y^{mo}_i = \{Y^{mo}_{i1}, Y^{mo}_{i2}，···，Y^{mo}_{iL}\}$ 表示 $Y^{mo}$ ，其中 $Y^{ma}$ 和 $Y^{mo}$ 为序列标记中的BIO标签。我们将面向标记的特征输入到一个全连接层中，以预测方面/意见术语的标签，并得到标签集上的预测概率:
$p^{ma}_{ij} = softmax(W_2q^a_{ij} + b_2)$
$p^{mo}_{ij} = softmax(W_2q^o_{ij} + b_2)$
MOSL的训练损失定义为交叉熵损失:

式中，I(·)为指示函数， $y^{ma}_{ij}$ 和 $y^{mo}_{ij}$ 为ground真值标签，C为 ${B, I, O\}$ 标签集。

4.5 推理过程

在推理过程中，我们采用了一种约束解码(CD)策略来保证内容和格式的合法性，这是受到Bao等人(2022)的启发; Lu等人(2021)。内容合法性是指方面/意见词在输入句中必须是一个单字或多个连续字，表达的情绪必须是积极的、中性的或消极的。格式合法性意味着生成的序列应该满足模板中定义的格式要求。
利用约束译码策略在 $X_a$ 和 $X_o$ 两个输入句子的基础上生成了 $Y_a$ 和 $Y_o$ 两个序列。然后根据定义的模板 $ψ_{a→o}$ 和 $ψ_{o→a}$ 将它们解线性为两个三元组 $T_a$ 和 $T_o$ 。我们以 $T_a$ 与 $T_o$ 的交集作为最终的预测结果。

5 训练目标(损失函数)

为了更好的理解双向依赖关系，也为了更少的空间开销，我们共同优化了句子和标签对 $(X, T)$ 的两个双向模板:
$λ(L^{a→o}_g + L^{a→o}_m) +(1−λ)(L^{o→a}_g + L^{o→a}_m)$

6. 实验结果

6.1 对比实验

监督设置的结果。‡的基线结果来自Yan等人(2021);Xu等人(2021);陈等(2022)。我们用“†”通过使用它们发布的代码来重现生成方法。最好的和第二好的F1成绩分别用粗体和下划线表示。∗标记表示与SSI+SEL的第二佳结果相比，p < 0.01有统计学意义的改善。

6.2 消融实验

双向模板的影响。表示不同解码顺序的预测结果。

在监督下的消融研究结果。

在Res16数据集上，低资源设置的受限解码(CD)消融研究的结果。

在不同的λ设置下F1分数变化。

CodeWang_NC

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
On the Strength of Sequence Labeling and Generative Modelsfor Aspect Sentiment Triplet Extraction

生成模型在方面情感三元组抽取任务中取得了很大的成功。然而，现有的方法忽略了方面词和意见词之间的相互信息线索，可能会产生错误的三元组对。此外，生成模型固有的局限性，即逐个标记的解码和简单的结构化提示，使得模型无法处理复杂的结构，特别是多个单词跨度的术语和多个三元组的句子。为了解决这些问题，我们提出了一个序列标记增强生成模型。首先，我们将aspect和opinion之间的依赖关系编码到两个双向模板中，以避免错误配对的三元组。
复制链接

扫一扫

专栏目录