Harmonizing Code-mixed Conversations: Personality-assisted Code-mixed Response Generation in Dialogu-CSDN博客

本文链接：https://blog.csdn.net/ZZZ___bj/article/details/140129941

在这里插入图片描述

将语码混合对话整合：基于性格辅助的语码混合对话生成

摘要
1 介绍
2 相关工作
3 问题定义
- 3.1 说话者的人格检测
- 3.1 响应生成
4 数据集
5 方法
6 实验和结果
7 结论

论文：https://arxiv.org/pdf/2401.12995v1
代码：未公开

摘要

语码混合，即在单一对话中融合多种语言，是响应生成中的一个独特挑战。捕捉语码混合的复杂性是一项艰巨的任务，因为其变体受个人说话风格和文化背景的广泛影响。在这项研究中，我们探索了语码混合对话中的响应生成。我们引入了一种新的方法，利用从对话中以无监督方式获取的大五人格特质来增强响应生成的性能。这些推断的人格属性通过一种新的融合机制PA3无缝地融入对话背景中。PA3采用了有效的两步注意力公式来融合对话和人格信息。这种融合不仅增强了生成响应的上下文相关性，还提升了模型的整体性能。

我们的实验结果基于一个包含多方印地语-英语语码混合对话的数据集，展示了人格融合模型相较于传统模型的显著优势。这在响应生成任务中的ROUGE和BLEU评分的增加中得到了体现，当识别出的人格无缝地整合到对话背景中时，性能显著提升。对于人格识别和响应生成的定性评估与我们的定量结果高度一致。

1 介绍

对话是交流思想和增进熟悉的主要媒介（Turnbull, 2003）。值得注意的是，许多人在日常交流中展示出多语言流利度，能够无缝地融合这些语言资源（Tay, 1989；Tarihoran 和 Sumirat, 2022）。这种通过融合不同语言来传达意义的现象被称为语码混合。尽管语码混合作为一种广泛存在的语言现象（Kasper 和 Wagner, 2014），在主流自然语言处理社区中并未引起重大关注，单语文本处理一直是主要焦点。近年来，越来越多的人认识到理解语码混合对话的重要性，导致更多研究开始探讨对话中语码混合的各个方面（Banerjee 等, 2018；Agarwal 等, 2021；Singh 等, 2022；Dowlagar 和 Mamidi, 2023），例如幽默的识别（Khandelwal 等, 2018；Bedi 等, 2021；Bukhari 等, 2023）、情感表达（Ameer 等, 2022；Kumar 等, 2023b）和讽刺（Bedi 等, 2021；Kumar 等, 2022）。然而，在语码混合对话中的响应生成领域仍然是一个未被充分探索的前沿（Singh 等, 2022）。为此，我们提出解决语码混合对话的响应生成挑战。

需要注意的是，尽管响应生成是一个重要的探索途径，但它与传统的自然语言理解任务有显著不同，因为在这个背景下，统一的“通用模型”本质上是不适用的（Chen et al., 2020a）。每个人都有一套独特的偏好和生活经历，这些共同塑造了他们独特的个性，从而对他们对相同问题的回应产生深远影响（Zhang et al., 2018a）。图1展示了这一点。显而易见，对于一个看似简单的问题，例如“你愿意陪我去参加派对吗？”，根据听者的主要性格特征，回应可能会有所不同。比如，性格偏向神经质的对话者A的回应与偏向外向的对话者B的回应显然不同。

在这里插入图片描述

性格特质本身具有广泛的范围，因此具备无限可能性（Alam和Riccardi，2014）。大量研究致力于量化这些特质（Briggs和Myers，1995；Butcher和Williams，2009；Benjamin Jr，2020），其中大五人格特质（Digman，1990）成为这一领域的主要框架。该理论将人类性格提炼为五个独特的维度：开放性（OPN）、尽责性（CON）、外向性（EXT）、宜人性（AGR）和神经质（NEU），每个维度都涵盖了个性的重要方面。例如，高水平的开放性可能意味着倾向于富有想象力。在本研究中，我们采用这个广泛接受的模型来表征说话者的性格。

我们的核心假设认为，在响应生成过程中加入性格指标在生成上下文适当的回应中起着关键作用。鉴于手动标注性格特质的复杂性和非普遍适用性，我们提出了一种无监督学习方法来获取这些特质，从而增强响应生成能力。简而言之，我们的贡献有四个方面：

我们探索了语码混合响应生成任务。
我们提出了一种无监督机制来识别说话者的性格特质，并利用它们生成更好的回应。
我们提出了一种新方法PA3，该方法将识别的特质与对话上下文结合以生成回应。
我们的定量和定性分析显示了在语码混合响应生成中包含性格特质的好处。

2 相关工作

2.1 对话和语码混合

2.2 响应生成

2.3 大五人格特征

2.4 人格辅助的响应生成

3 问题定义

完整的问题定义可分为以下两个阶段：

3.1 说话者的人格检测

在这里插入图片描述

3.1 响应生成

在这里插入图片描述

4 数据集

5 方法

在本节中，我们讨论我们提出的方法，主要目标是从对话上下文中有效识别性格属性。为实现这一目标，我们提出了一种无监督技术，利用响应生成性能来改进性格识别。随后，我们将性格属性融入对话上下文中，以生成受个性特质影响的响应。

我们提出在核心编码器中加入一个中间模块。该模块利用一个简单但有效的两步注意力机制，促进性格属性与对话表示的融合。总体上，我们采用上下文感知注意力（Yang等，2019），这在将性格特征注入对话的键和值向量中起到重要作用。随后，我们使用轴向注意力（Ho等，2020）来生成精炼的最终表示，并将其输入解码器。图4提供了我们模型的示意图。在接下来的小节中，我们对各个模块进行全面概述。

在这里插入图片描述

5.1 性格识别

在本节中，我们描述了辨识每个说话者的性格特征并将其映射到相应特征定义的方法。尽管多种理论量化了说话者的性格特征（Briggs和Myers，1995；Butcher和Williams，2009；Benjamin Jr，2020），现有的自然语言处理（NLP）应用广泛使用“大五人格”理论（Digman，1990）。因此，我们选择了该模型进行研究，包括五个不同的性格维度，如表1所示，其中一个维度被认为是主要的。为了找到对话中最适合的说话者性格特征，我们采用了类似于Word2Vec（Mikolov等，2013）的方法，其中实施了一个“伪”任务以促进词嵌入的获取。

在性格识别的背景下，我们的“伪”任务表现为响应生成，我们寻求通过性格识别的中间步骤来增强生成的响应。图3概述了我们的性格识别机制。我们采用RoBERTa base（Liu等，2020b）来分类归属于目标说话者的性格，使用输入对话作为主要数据来源。一旦识别出性格，它将被链接到其模板定义——即说话者性格的描述性表示，如表1所述。这个性格定义将与输入对话一起呈现给编码器，以进行提议管道的进一步步骤。
在这里插入图片描述

5.2 个性感知注意力（PAA）

在拥有性格定义和输入对话的情况下，我们的下一步是将性格信息与对话信息无缝融合，以生成合适的响应。传统的基于注意力的融合机制通常促进输入表示之间的直接互动，其中一个表示作为查询，其他表示则充当键和值。然而，由于每个表示捕捉到不同的属性，简单的融合可能无法保留最佳的上下文信息，并且可能会在最终表示中引入显著的噪音。因此，我们引入了基于性格的注意力（PAA）融合，采用了上下文感知注意力（Yang等，2019）。我们的方法包括首先生成基于性格的键和值向量，然后应用轴向注意力（Ho等，2020）以获得最终融合值。以下是我们详细解释这一过程。

在这里插入图片描述

根据 Yang 等人（2019）的方法，

一旦我们获得了注入人格的键和值向量，我们就会使用如下所述的轴向注意机制。

5.3 轴向注意力

轴向注意力（Axial attention）（Ho et al., 2020）主要应用于计算机视觉领域，用于处理多维张量。其基本目标是独立处理每个轴，从而全面探索各维度之间的关系。这种方法保持了多维张量的原始形状，在任意时间沿单一轴执行有掩码或无掩码的注意力操作。该操作称为轴向注意力，记为Attentionk(x)，负责在张量x的轴k上引导注意力。通过这种方式，它在沿轴k融合信息的同时，保持其余轴上信息的独立性。

实现轴向注意力涉及一系列步骤，例如将除轴k之外的所有轴转置为批量轴，调用标准注意力作为子程序，然后恢复转置操作。在我们的网络架构中，我们利用两个轴向注意力层，最终得到的对话表示记为ˆH，这表明对话的个性化表示，然后传递到下一个编码器/解码器层。对于我们的输入二维数组ˆK、Vˆ 和Q:
在这里插入图片描述

6 实验和结果

7 结论

我们探索了利用说话者的个性来在代码混合对话领域中帮助生成反应的任务。说话者的人格，从大五人格特征中，以一种无监督的方式学习，并使用一种新的融合机制结合对话背景。我们利用两级注意机制，采用情境感知和轴向注意方法，有效地融合人格信息和对话情境。我们的实验表明，当人格信息被融合到系统中时，其反应质量和一致性都有了显著的提高。此外，我们还提供了对推断的人格特征及其与反应产生的定性联系的见解。