ACL2023长论文：对话系统相关论文汇总【1】

dognoline

已于 2023-11-07 15:21:58 修改

阅读量2.2k

点赞数

分类专栏： NLP 文章标签： nlp

于 2023-11-07 15:05:43 首次发布

本文链接：https://blog.csdn.net/csdndogo/article/details/134267197

版权

NLP 专栏收录该内容

8 篇文章

订阅专栏

ACL 2023长论文对话系统相关汇总摘要

2023.1.7 整理ACL长论文收录的对话系统相关论文

这系列论文在对话系统领域涉及多个关键主题。其中，Prompter以动态前缀适应零样本对话状态跟踪，显著优于先前方法。另外，采用双语模型的DAMP在全球市场上展现出强大的多语言性能。视频对话理解方面，VSTAR数据集推动了对话与场景、主题的深度理解。最后，结合对比潜变量的个性化对话生成模型CLV，有效整合了稀疏与密集人物描述，提升了个性化生成的质量。这些研究推动了对话系统在各个方面的创新和性能提升。

Yajiao Liu, Xin Jiang, Yichun Yin, Yasheng Wang, Fei Mi, Qun Liu, Xiang Wan, Benyou Wang: One Cannot Stand for Everyone! Leveraging Multiple User Simulators to train Task-oriented Dialogue Systems. 1-21

摘要：用户模拟器是设计成模仿人类用户的代理；最近的研究进展发现，针对用户模拟器进行优化的面向任务的对话（ToD）系统能够更好地满足人类用户的需求。然而，如果ToD系统仅定制给一个特定的即时用户模拟器，可能导致ToD系统不够优化，因为人类用户的行为可能各不相同。在本文中，我们提出了一个名为MUST的框架，通过充分利用多个用户模拟器来优化ToD系统。实施MUST的主要挑战包括：1）在每个优化步骤中如何自适应确定与ToD系统交互的用户模拟器，因为ToD系统可能对某些特定用户模拟器进行了过度拟合，同时对其他模拟器进行了欠拟合；2）如何避免对于连续多个优化步骤未被选择的模拟器的适应性遗忘。为了解决这些挑战，我们将MUST制定为多臂老虎机（MAB）问题，并提供了一种方法。

Björn Bebensee, Haejun Lee: Span-Selective Linear Attention Transformers for Effective and Robust Schema-Guided Dialogue State Tracking. 78-91

摘要：在模式引导的对话状态跟踪模型中，通过使用服务模式的自然语言描述来估计对话的当前状态，以便泛化到未见的服务。先前的生成方法按顺序解码槽值，对模式变化的泛化效果不佳，而判别方法分别编码历史和模式，未考虑槽间和意图-槽依赖关系。我们引入了SPLAT，这是一种新颖的架构，通过将输出限制在有限的预测空间内，实现了比先前方法更好的泛化和效率。与此同时，我们的模型允许在描述和历史之间进行丰富的注意力，同时通过整合线性时间注意力来保持计算成本受限。我们在Schema-Guided Dialogue（SGD）和MultiWOZ数据集上展示了我们模型的有效性。我们的方法显著改进了现有模型，在SGD数据集上实现了85.3的JGA。此外，我们在SGD-X基准上展示了增强的鲁棒性：我们的模型胜过了体积超过30倍的D3ST-XXL模型5.0个点。

Yiyang Li, Hai Zhao: EM Pre-training for Multi-party Dialogue Response Generation. 92-103

摘要：对话响应生成要求代理根据当前对话历史生成响应，在已经深入研究了两方对话的情况下，对于多方对话留下了巨大的空白。与两方对话不同，其中每个响应都是对其前一次话语的直接回复，在多方场景中，在生成响应话语之前应指定响应话语的收件人。由于大量的两方会话数据，已经提出了各种预先训练的两方对话响应生成语言模型。然而，由于多方对话数据集中缺少带有注释的收件人标签，因此难以将它们用于预训练多方对话响应生成模型。为了克服这一障碍，我们提出了一种期望最大化（EM）方法，通过迭代执行期望步骤生成收件人标签，并执行最大化步骤来优化响应生成模型。理论分析和广泛实验证明了我们提出的方法的可行性和有效性。本文的官方实现可在 https://github.com/EricLee8/MPDRG 找到。

Kun Zhao, Bohao Yang, Chenghua Lin, Wenge Rong, Aline Villavicencio, Xiaohui Cui: Evaluating Open-Domain Dialogues in Latent Space with Next Sentence Prediction and Mutual Information. 562-574

摘要：长期以来，开放领域对话的一对多问题给自动评估方法带来了显著挑战，即对于给定对话上下文可能存在多个语义上合适的响应。为了解决这一挑战，我们提出了一种新颖的基于学习的自动评估度量（CMN），通过将条件变分自动编码器（CVAEs）与下一句预测（NSP）目标相结合，并使用互信息（MI）来建模潜在空间中文本的语义相似性，从而稳健地评估开放领域对话。在两个开放领域对话数据集上的实验证明了我们方法相对于一系列基线的优越性，特别是在处理与语义上与“黄金”参考响应相距较远的响应方面。

Ang Lv, Jinpeng Li, Yuhan Chen, Gao Xing, Ji Zhang, Rui Yan: DialoGPS: Dialogue Path Sampling in Continuous Semantic Space for Data Augmentation in Multi-Turn Conversations. 1267-1280

摘要：在开放领域对话生成任务中，大多数数据集中的上下文和响应是一对一映射的，违反了一个重要的一对多特性：一个上下文导致多个响应，一个响应回答多个上下文。在没有这样的模式的情况下，模型泛化能力差，更倾向于安全地回应。已经尝试在多轮设置中从一对多的角度或在一对多的角度中进行多轮设置，但限于单轮设置。许多对一对多增强多轮对话的尝试的主要挑战是离散地用语义相似性替换每个轮次会破坏脆弱的上下文一致性。在本文中，我们提出了 DialoGue Path Sampling（DialoGPS）方法，该方法在连续语义空间中进行，是多轮对话的第一种多对多增强方法。具体而言，我们将对话映射到我们的扩展Brownian Bridge，一个特殊的高斯过程。我们对潜在变量进行采样，形成连续空间中的一致对话路径。对话路径对应于一个新的多轮对话，并用作增强训练数据。我们通过自动和人工评估展示了 DialoGPS 的效果。

Yu Li, Baolin Peng, Pengcheng He, Michel Galley, Zhou Yu, Jianfeng Gao: DIONYSUS: A Pre-trained Model for Low-Resource Dialogue Summarization. 1368-1386

摘要：最近，由于对话摘要具有广泛的应用，它引起了显著的关注。然而，现有的对话摘要方法存在局限性，因为它们未考虑对话的固有结构，并且严重依赖标记数据，这可能导致在新领域性能不佳。在这项工作中，我们提出了 DIONYSUS（dynamic input optimization in pre-training for dialogue summarization），这是一个用于总结任何新领域对话的预训练编码器-解码器模型。为了预训练 DIONYSUS，我们为每个对话示例创建两个伪摘要：一个来自经过微调的摘要模型，另一个来自重要的对话转折。然后，我们根据不同类型对话中的信息分布差异选择其中一个伪摘要。所选的伪摘要用作在大型对话语料库上使用自监督方法预训练 DIONYSUS 的目标。我们的实验证明，DIONYSUS在六个数据集上表现优异，其 ROUGE 分数在零-shot 和 few-shot 设置中得到证实。

Yufei Li, Zexin Li, Yingfan Gao, Cong Liu: White-Box Multi-Objective Adversarial Attack on Dialogue Generation. 1778-1792

摘要：预训练的转换器在最先进的对话生成（DG）系统中很受欢迎。然而，这种语言模型在对话生成系统中的稳健性对各种对抗性样本很敏感，正如在传统任务（如文本分类）中所研究的那样，这引起了我们对它们在对话生成系统中稳健性的好奇。攻击对话生成模型的一个主要挑战是，对当前句子的扰动几乎不会降低响应准确性，因为未改变的聊天历史也会被考虑在内进行决策。我们并非仅仅追求性能度量（如BLEU、ROUGE）的陷阱，而是观察到，通过生成更长的输出，可以提高对抗样本的攻击效果——生成的响应通常是不相关、冗长和重复的。为此，我们提出了一种白盒多目标攻击方法，称为DGSlow。具体而言，DGSlow通过基于梯度的多目标优化器平衡两个目标——生成准确性和长度，并采用自适应搜索机制，通过仅进行少量修改，迭代地生成对抗性样本。对四个基准数据集的综合实验证明，DGSlow可以显著降低最先进的DG模型，成功率比传统的基于准确性的方法更高。此外，我们生成的句子在攻击其他模型时也表现出很强的可迁移性。

Qingyue Wang, Liang Ding, Yanan Cao, Yibing Zhan, Zheng Lin, Shi Wang, Dacheng Tao, Li Guo: Divide, Conquer, and Combine: Mixture of Semantic-Independent Experts for Zero-Shot Dialogue State Tracking. 2048-2061

摘要：对话状态跟踪（DST）的零次迁移学习有助于处理各种面向任务的对话领域，而无需收集领域内数据的成本。现有研究主要探讨了常见的数据或模型级增强方法，以提高泛化性能，但未能有效解耦样本的语义，限制了DST的零次性能。在本文中，我们提出了一种简单而有效的“分割、征服和合并”的解决方案，明确解开了已见数据的语义，并利用专家混合机制的性能和鲁棒性。具体而言，我们将已见数据划分为语义独立的子集，并训练相应的专家，然后使用我们设计的集成推理将新出现的样本映射和推断。在T5-Adapter上对MultiWOZ2.1进行的大量实验证明，我们的模式显著且一致地提高了零次性能，在没有外部知识的情况下，仅使用1000万可训练参数即可实现最先进的性能。

Yue Feng, Yunlong Jiao, Animesh Prasad, Nikolaos Aletras, Emine Yilmaz, Gabriella Kazai: Schema-Guided User Satisfaction Modeling for Task-Oriented Dialogues. 2079-2091

摘要：用户满意建模（USM）是任务导向对话系统评估的热门选择之一，其中用户满意通常取决于系统是否实现了用户的任务目标。任务导向对话系统使用任务模式，它是一组任务属性，用于编码用户的任务目标。现有的关于USM的研究忽略了使用任务模式来明确建模用户的任务目标履行。在本文中，我们提出了SG-USM，这是一个新颖的基于模式的用户满意建模框架。它明确地建模了系统满足用户对任务属性的偏好程度，以预测用户的满意水平。SG-USM采用预训练语言模型来编码对话上下文和任务属性。此外，它使用一个履行表示层来学习对话中有多少任务属性已被满足，一个重要性预测器组件来计算任务属性的重要性。最后，基于任务属性履行和任务属性重要性，它预测用户的满意度。在基准数据集上的实验结果（即MWOZ、SGD、ReDial和JDDC）表明，SG-USM始终优于竞争对手的现有方法。我们的广泛分析表明，SG-USM可以提高用户满意建模的可解释性，具有良好的可扩展性，因为它可以有效处理未见任务，并且还可以通过利用未标记的数据在低资源环境中有效工作。代码可在 https://github.com/amzn/user-satisfaction-modeling 找到。

Hao Sun, Zhexin Zhang, Fei Mi, Yasheng Wang, Wei Liu, Jianwei Cui, Bin Wang, Qun Liu, Minlie Huang: MoralDial: A Framework to Train and Evaluate Moral Dialogue Systems via Moral Discussions. 2213-2230

摘要：最近，对话系统中的道德问题引起了极大的关注。与用户价值观一致的道德对话系统可以提升对话的参与度和用户连接。在本文中，我们提出了一个名为MoralDial的框架，用于训练和评估道德对话系统。在我们的框架中，我们首先探讨了道德的沟通机制，并将表达的道德分解为三个部分，这指示了构建道德对话系统的路线图。基于此，我们设计了一种简单而有效的方法：在模拟的特定用户和对话系统之间构建道德讨论。构建的讨论包括在对话交流中表达、解释、修订和推断道德观点，使会话模型能够以自然的方式学习道德。此外，我们在该框架下提出了一种新颖的评估方法。通过在讨论中判断对话响应与人类价值观之间的关系，我们评估了道德的多个方面，特别考虑了道德的多面性。自动和手动实验证明，我们的框架有望用于训练和评估道德对话系统。

Maksim Eremeev, Ilya Valmianski, Xavier Amatriain, Anitha Kannan: Injecting knowledge into language generation: a case study in auto-charting after-visit care instructions from medical dialogue. 2373-2390

摘要：在高风险领域（如医疗保健）中，实际应用自然语言生成的一个限制因素通常是事实正确性。保持事实正确性的一个基本要求是处理罕见的标记。本文重点研究了同时出现在源序列和参考序列中的罕见标记，当在生成过程中遗漏时，会降低输出文本的事实正确性。对于那些同时具有高风险和丰富知识的领域，我们展示了如何利用知识来（a）识别在源和参考中同时出现的哪些罕见标记是重要的，并且（b）提高它们的条件概率。我们引入了“利用率”，它编码知识并作为正则化项，通过最大化所选标记的边际概率来提供帮助。我们在医疗保健领域进行了一项研究，解决了基于患者-医生对话生成随访护理说明的问题。我们验证了在我们的数据集中，具有高利用率的特定医疗概念在常规训练的序列到序列模型中被低估。我们观察到，使用我们的知识注入方法纠正这一问题不仅降低了模型的不确定性，还提高了事实正确性和连贯性，而没有对流畅性产生负面影响。

Seungpil Won, Heeyoung Kwak, Joongbo Shin, Janghoon Han, Kyomin Jung: BREAK: Breaking the Dialogue State Tracking Barrier with Beam Search and Re-ranking. 2832-2846

摘要：尽管在对话状态跟踪（DST）方面取得了一些进展，但现有方法在MultiWOZ 2.1上的联合目标准确率（JGA）仍然仅为60%。在我们的初步错误分析中，我们发现束搜索产生的候选池很可能包含正确的对话状态。在这一观察的启发下，我们引入了一个称为BREAK（Beam search and RE-rAnKing）的新框架，该框架在DST上取得了卓越的性能。BREAK在两个阶段执行DST：（i）使用束搜索生成k个最佳对话状态候选，（ii）对候选进行重新排序以选择正确的对话状态。这个简单而强大的框架在MultiWOZ的所有版本和M2M数据集上都展现出最先进的性能。值得注意的是，在MultiWOZ 2.1-2.4上，我们将联合目标准确率提高到80-90%，分别比之前表现最佳的模型改进了23.6%，26.3%，21.7%和10.8%。数据和代码将在 https://github.com/tony-won/DST-BREAK 上提供。

Anthony Sicilia, Malihe Alikhani: Learning to Generate Equitable Text in Dialogue from Biased Training Data. 2898-2917

摘要：对话系统决策过程中根深蒂固的公平原则和产生的反应对用户参与度、满意度和任务完成至关重要。缺乏公平和包容的原则可能会阻碍形成共同点，进而对系统的整体绩效产生负面影响。例如，在用户交互中滥用代词可能会导致预期主题的歧义。然而，还没有对对话中公平生成文本进行全面研究。在这项工作中，我们恰当地使用了计算学习的理论来研究这个问题。我们提供了文本生成中公平性的正式定义，并进一步证明了学习人类相似性和学习公平性之间的正式联系：提高公平性的算法最终归结为提高人类相似性的算法（在增强数据上）。有了这一点，我们还制定了合理的条件，在这些条件下，文本生成算法可以学习生成公平的t

Chongyang Tao, Jiazhan Feng, Tao Shen, Chang Liu, Juntao Li, Xiubo Geng, Daxin Jiang: CORE: Cooperative Training of Retriever-Reranker for Effective Dialogue Response Selection. 3102-3114

摘要：建立能够从预建索引中选择合适响应的检索式对话系统引起了越来越多的关注。最近的常见做法是构建一个两阶段的流程，第一阶段使用快速检索器（例如，双编码器）进行首次召回，然后使用智能响应重新排名器（例如，交叉编码器）进行精确排名。然而，现有研究要么独立优化检索器和重新排名器，要么以异步方式从预训练的重新排名器中提炼知识到检索器，导致两个模块的性能都不理想。因此，一个悬而未决的问题是如何训练它们以更好地结合两者的优点。为此，我们提出了一种响应检索器和重新排名器的协同训练方法，其参数通过地面真实标签以及彼此之间的列表式监督信号进行动态优化。结果，这两个模块可以相互学习，并在整个训练过程中共同演化。在两个基准测试上的实验证明了我们方法的优越性。

Yongkang Liu, Shi Feng, Daling Wang, Yifei Zhang, Hinrich Schütze: PVGRU: Generating Diverse and Relevant Dialogue Responses via Pseudo-Variational Mechanism. 3295-3310

摘要：我们研究生成式聊天机器人中多轮对话的响应生成。基于循环神经网络（RNN）的现有生成模型通常使用最后的隐藏状态来总结历史，这使得模型无法捕捉到不同对话中观察到的微妙变化，并且不能区分在构成上相似的对话之间的差异。在本文中，我们提出了伪变分门控循环单元（PVGRU）。PVGRU的关键创新在于一个循环的汇总变量，它聚合了子序列的累积分布变化。我们训练PVGRU时不依赖后验知识，从而避免了训练-推断不一致性的问题。PVGRU可以通过我们用于训练的两个目标（分布一致性和重构）优化的总结变量感知微妙的语义变化。此外，我们基于PVGRU构建了一个伪变分分层对话（PVHD）模型。实验结果表明，PVGRU能够广泛提高两个基准数据集上响应的多样性和相关性。

William Held, Christopher Hidey, Fei Liu, Eric Zhu, Rahul Goel, Diyi Yang, Rushin Shah: DAMP: Doubly Aligned Multilingual Parser for Task-Oriented Dialogue. 3586-3604

摘要：现代虚拟助手使用内部语义解析引擎将用户的话语转换为可操作的命令。然而，先前的研究表明，与其他任务相比，多语言模型在语义解析方面的鲁棒性较差。在印度和拉丁美洲等全球市场，鲁棒的多语言语义解析对于双语用户来说至关重要，因为在不同语言之间进行代码切换是普遍的。在这项工作中，我们通过两个阶段的多语言对齐大幅提高了多语言和代码切换语义解析系统的零样本性能。首先，我们展示了对比对齐预训练如何提高英语性能和转移效率。然后，我们引入了在微调期间进行无超参数对抗对齐的受限优化方法。我们的双重对齐多语言解析器（DAMP）在Spanglish、Hinglish和多语言任务定向解析基准上将mBERT的转移性能提高了3倍、6倍和81倍，而且在使用3.2倍更少的参数的情况下优于XLM-R和mT5-Large。

Yang Deng, Wenxuan Zhang, Yifei Yuan, Wai Lam: Knowledge-enhanced Mixed-initiative Dialogue System for Emotional Support Conversations. 4079-4095

摘要：不同于富有同理心的对话，情感支持对话（ESC）中的系统被期望不仅传达同理心以安抚求助者，而且在对话过程中积极帮助探讨和解决他们的问题。在这项工作中，我们研究了混合主动的ESC问题，其中用户和系统都可以在引导对话方面采取主动。具体而言，我们使用一个定制的模式对混合主动ESC系统进行了新颖的分析，该模式将话语划分为具有发言者角色和主动类型的不同类型。提出了四个情感支持度量标准来评估混合主动交互。分析揭示了构建混合主动ESC系统的必要性和挑战。基于此，我们提出了一种用于ESC的知识增强的混合主动框架（KEMI），该框架从大规模心理健康知识图中检索实际案例知识以生成混合主动响应。在两个ESC数据集上的实验结果显示了KEMI在内容保持评估和混合主动相关分析方面的优越性。

Sarik Ghazarian, Yijia Shao, Rujun Han, Aram Galstyan, Nanyun Peng: ACCENT: An Automatic Event Commonsense Evaluation Metric for Open-Domain Dialogue Systems. 4398-4419

摘要：常识推理在人类交流中无处不在，因此是开放领域对话系统的重要特征。然而，对话系统中的常识评估仍然是一个尚未解决的挑战。我们迈出了第一步，专注于考虑事件及其关系的事件常识，这在对话和一般常识推理中都至关重要。我们提出了一种由常识知识库（CSKBs）赋能的事件常识评估度量—ACCENT。ACCENT首先从对话中提取事件关系元组，然后通过评分这些元组与CSKB的兼容性来评估响应。为了评估ACCENT，我们构建了开放领域对话的第一个公共事件常识评估数据集。我们的实验证明，ACCENT是一个高效的事件常识评估度量，与人类判断的相关性高于现有的基线。

Yifan Deng , Xingsheng Zhang, Heyan Huang, Yue Hu: Towards Faithful Dialogues via Focus Learning. 4554-4566

摘要：维护响应和知识之间的忠实度是构建可靠的基于知识的对话系统的重要研究课题。现有模型严重依赖复杂的数据工程或增加模型参数，而忽视了跟踪那些对损失产生重大影响的标记，这对于模型在每次迭代中的优化方向是决定性的。为了解决这个问题，我们提出了一种新颖的学习方法——焦点学习（FocusL），它通过直接缩放相应的目标损失来调整每个标记对优化方向的贡献。具体而言，我们首先通过利用知识和每个响应标记之间的相似性分布来定位知识感知标记，引入了一种定位方法。然后，我们进一步设计了一种相似性到权重转换，为交叉熵损失提供动态的标记级权重。最后，我们使用加权损失来鼓励模型特别关注知识的利用。实验结果表明，我们的方法实现了新的最先进结果，并在保持训练稳定性的同时生成更可靠的响应。

Ibrahim Taha Aksu, Min-Yen Kan, Nancy F. Chen: Prompter: Zero-shot Adaptive Prefixes for Dialogue State Tracking Domain Adaptation. 4588-4603

摘要：对话状态跟踪（DST）领域的一个挑战是在不使用任何监督数据的情况下使模型适应新领域——零样本领域自适应。由于其稳健性，参数高效的迁移学习（PETL）有望解决这个问题。然而，由于不清楚如何无监督地应用它，因此尚未将其应用于零样本场景。我们的方法，Prompter，使用目标领域槽的描述生成动态前缀，这些前缀连接到每个层的自注意机制中的关键和值。这允许在零样本情况下使用前缀调整。Prompter在MultiWOZ和SGD基准测试中均优于先前的方法。在生成前缀时，我们的分析发现Prompter不仅利用槽描述的语义，还利用了这些槽在对话中一起出现的频率。此外，与基线相比，Prompter的增益来自其更好地区分对话槽中的“none”值。

Chen Tang, Hongbo Zhang, Tyler Loakman, Chenghua Lin, Frank Guerin:Enhancing Dialogue Generation via Dynamic Graph Knowledge Aggregation. 4604-4616

摘要：将外部图知识纳入神经对话模型已被证明对增强对话生成效果有效。然而，在传统的图神经网络（GNNs）中，图上的消息传递独立于文本，导致图表示的隐藏空间与文本不同。因此，现有模型的训练方式导致图知识和文本之间存在语义差距。在这项研究中，我们提出了一种新颖的知识图增强对话生成框架。我们动态构建一个带有伪节点的多跳知识图，以便在图内的所有步骤中将语言模型纳入图内特征聚合。为了避免由在普通子图上学习引起的语义偏差，所提出的框架应用分层图注意力来聚合伪节点上的图特征，然后获得全局特征。因此，该框架可以更好地利用来自后处理和外部图知识的异构特征。大量实验证明，我们的框架在对话生成方面优于最先进的基线。进一步的分析还表明，我们的表示学习框架可以通过凝聚文本和图知识的表示来填补语义差距。此外，语言模型还通过在我们的特征聚合过程中利用子图模式来更好地选择知识三元组以获得更具信息性的响应。我们的代码和资源可在 https://github.com/tangg555/SaBART 上找到。

Yuxuan Wang, Zilong Zheng, Xueliang Zhao, Jinpeng Li, Yueqian Wang, Dongyan Zhao:VSTAR: A Video-grounded Dialogue Dataset for Situated Semantic Understanding with Scene and Topic Transitions. 5036-5048

摘要：视频基础对话理解是一个具有挑战性的问题，要求机器能够感知、解析和推理出从弱对齐的视频和对话中提取的情境语义。大多数现有的基准将两种模态的处理方式都同等看待为一个独立于帧的视觉理解任务，同时忽视了多模态对话中的固有属性，如场景和主题的转换。在这篇论文中，我们提出了基于 395 部电视剧的视频对话理解数据集 VSTAR（Video-grounded Scene&Topic AwaRe dialogue）。基于 VSTAR，我们提出了两个视频对话理解的基准：场景分割和主题分割，以及一个视频对话生成的基准。通过对这些基准进行全面的实验，展示了多模态信息和视频对话理解和生成中片段的重要性。

Yihong Tang, Bo Wang, Miao Fang, Dongming Zhao, Kun Huang, Ruifang He, Yuexian Hou: Enhancing Personalized Dialogue Generation with Contrastive Latent Variables: Combining Sparse and Dense Persona. 5456-5468

个性化对话探索了对话生成和个性之间的一致关系。现有的个性化对话代理从三个资源中建模人物角色：稀疏或密集的人物描述和对话历史。然而，稀疏的结构化人物属性明确但不具信息量，密集的人物文本包含了丰富的但伴随噪音的人物描述，而对话历史查询对于人物建模既嘈杂又不具信息量。在这项工作中，我们结合了这三个资源的优势，得到了更丰富、更准确的个性化。我们设计了一个基于对比潜变量的模型（CLV），将密集的人物描述聚类成稀疏的类别，然后将它们与历史查询结合起来生成个性化的响应。对中英文数据集的实验证明了我们模型在个性化方面的优越性。

Weihao Zeng, Keqing He, Yejie Wang, Chen Zeng, Jingang Wang, Yunsen Xian, Weiran Xu: FutureTOD: Teaching Future Knowledge to Pre-trained Language Model for Task-Oriented Dialogue. 6532-6546

基于通用文本的预训练语言模型在自然语言处理场景中取得了巨大成功。但通用文本与面向任务的对话之间语言模式的内在差异使得现有的预训练语言模型在实践中的效果较差。当前的对话预训练方法依赖于对比框架，并面临着选择真正的正例和困难负例的挑战。在本文中，我们提出了一种新颖的对话预训练模型，FutureTOD，它使用自我训练框架将未来知识提炼到先前对话上下文的表示中。我们的直觉是，一个良好的对话表示既学习了局部上下文信息，又预测了未来的信息。对各种下游对话任务的广泛实验证明了我们模型的有效性，尤其是泛化性、稳健性和学习判别性对话表示的能力。

Rui Wang, Jianzhu Bao, Fei Mi, Yi Chen, Hongru Wang, Yasheng Wang, Yitong Li, Lifeng Shang, Kam-Fai Wong, Ruifeng Xu: Retrieval-free Knowledge Injection through Multi-Document Traversal for Dialogue Models. 6608-6619

对话模型通常通过检索增强的流程使用丰富的外部知识，以提供通过检索增强的管道的信息性响应。然而，检索增强方法依赖于精细注释的检索训练数据和基于知识的响应生成数据，使得传输成本高昂。为了解决这一挑战，本文提出了一种无检索的方法，KiDG，通过多文档遍历算法自动将知识文档转化为模拟的多轮对话。由KiDG构建的模拟知识密集型对话可以轻松用于训练和增强预训练对话模型对该领域的知识，而无需昂贵的注释。我们进行了大量实验证明了检索增强模型和各种无检索模型之间的差异。我们发现通过KiDG模拟的数据增强的对话模型在很大程度上优于最先进的无检索方法，并且在领域转移方面表现出与检索增强方法相当的性能，而成本更低。

Rongxin Zhu, Jianzhong Qi , Jey Han Lau:Annotating and Detecting Fine-grained Factual Errors for Dialogue Summarization. 6825-6845

探讨了面向格式良好的文档（如新闻文章）生成的摘要的一系列数据集和模型。然而，对话摘要却鲜有研究。在本文中，我们提出了一个带有细粒度事实错误注释的第一个数据集，名为DIASUMFACT。我们将细粒度事实错误检测定义为一个句子级多标签分类问题，并在我们的数据集上评估了两个最先进的模型。这两个模型都产生了次优的结果，六个错误类别的宏平均F1分数约为0.25。我们进一步通过使用预训练的编码器-解码器模型进行候选排名提出了一个无监督模型ENDERANKER。我们的模型在资源更少的情况下表现与最先进的模型相当。这些观察结果证实了从对话摘要中检测事实错误的挑战，为进一步研究提供了坚实的基础。

Jiazhan Feng, Qingfeng Sun, Can Xu, Pu Zhao, Yaming Yang, Chongyang Tao, Dongyan Zhao, Qingwei Lin:MMDialog: A Large-scale Multi-turn Dialogue Dataset Towards Multi-modal Open-domain Conversation. 7348-7363

本文介绍了MMDialog数据集，以更好地支持多模态对话。MMDialog由1.08百万条现实世界对话组成，涉及4,184个主题，包含1.53百万张独特的图像。MMDialog具有两个主要且独特的优势。首先，它是按对话数量计算的最大多模态对话数据集，超过了88倍。其次，它包含大量主题，以推广开放领域。为了利用这个数据集构建一个引人入胜的对话系统，我们提出并规范了基于检索和生成场景的两个响应预测任务。此外，我们使用最先进的技术构建了上述任务的两个基线，并报告了它们的实验性能。我们还提出了一种新颖的评估指标MM-Relevance，用于衡量多模态响应。我们的数据集可在https://github.com/victorsungo/MMDialog获得。

Ang Lv, Jinpeng Li, Shufang Xie, Rui Yan: Envisioning Future from the Past: Hierarchical Duality Learning for Multi-Turn Dialogue Generation. 7382-7394

在这篇论文中，我们定义了对话文本中一个被广泛忽视的属性，即二元性，这是一种分层属性，反映了人类在日常对话中的行为：基于对话（或句子）中的逻辑，人们可以推断出基于先前文本的后续话语（或标记），反之亦然。我们提出了一种用于对话的分层二元性学习（HDLD），以模拟这种人类的认知能力，以生成连接先前和后续对话的高质量响应。HDLD利用标记层次和话语层次上的分层二元性。HDLD最大化了过去和未来话语之间的互信息。因此，即使在推理过程中未来文本是不可见的，HDLD仍能够基于对话历史隐式地估计未来信息，并生成连贯且信息丰富的响应。与先前的方法仅在训练期间利用未来文本作为辅助信息进行编码相反，HDLD利用了二元性，以使对话历史和未来之间发生交互。这提高了对话数据的利用率，从而提高了自动评估和人类评估的效果。

Federico Ruggeri, Mohsen Mesgar, Iryna Gurevych: A Dataset of Argumentative Dialogues on Scientific Papers. 7684-7699

随着近年来问答模型的不断进展，各种数据集被收集用于改进和研究这些模型在科技文本上的效果。这些数据集中的问题和答案通过从论文内容中寻找事实信息来探索科学论文。然而，这些数据集未涉及科学论文中的论证内容，在科学讨论的说服力方面至关重要。我们引入了ArgSciChat，这是一个包含20篇自然语言处理论文的41个科学家之间论证对话的数据集。我们数据集的独特之处在于它包含对科学论文进行探讨和论证的问题和答案。此外，ArgSciChat的规模展示了在专业领域收集对话数据的困难。因此，我们的数据集是在低资源领域评估对话代理的一项具有挑战性的资源，在这些领域收集训练数据成本较高。我们对ArgSciChat中对话的所有句子进行了标注并进行了广泛的分析。结果证实，ArgSciChat中的对话包含探讨和论证的互动。此外，我们使用我们的数据集来微调和评估一个预训练的文档导向对话代理。该代理在我们的数据集上表现不佳，促使我们需要具有推理和论证答案能力的对话代理。我们公开发布ArgSciChat。

Wen Zheng, Natasa Milic-Frayling, Ke Zhou:Contextual Knowledge Learning for Dialogue Generation. 7822-7839

将对话背景和知识融入对话生成模型对提高生成响应的质量至关重要。对话背景，包括来自先前对话交流的话语，被用作响应生成的内容来源，并用作选择外部知识的手段。然而，为了避免引入不相关的内容，能够对上下文和知识进行细粒度评分至关重要。在本文中，我们提出了一种上下文和知识加权的新方法，作为模型训练的一部分。我们通过上下文知识学习（CKL）过程来引导模型训练，该过程涉及分别用于上下文和知识的潜在向量。CKL潜在向量通过弱监督捕捉上下文、知识和响应之间的关系，并在训练过程中实现对上下文话语和知识句子的差异加权。对两个标准数据集的实验证明，与六个强基线模型的性能相比，CKL能够显著提高性能，并且在减小训练集大小方面表现出鲁棒性。

Xiaoming Shi, Zeming Liu, Chuan Wang, Haitao Leng, Kui Xue, Xiaofan Zhang, Shaoting Zhang: MidMed: Towards Mixed-Type Dialogues for Medical Consultation. 8145-8157

在许多情况下，由于缺乏医学知识，患者通常难以确定具有所有必要槽的明确目标。在本文中，我们将这一挑战确定为如何构建医疗咨询对话系统以帮助患者澄清目标。为进一步研究，我们创建了一个新颖的人机混合类型医疗咨询对话语料库，称为MidMed，涵盖了四种对话类型：用于诊断、建议、问答和闲聊的任务导向对话。MidMed覆盖了四个科室（耳鼻喉科、眼科、皮肤科和消化系统），包含8,309个对话。此外，我们在MidMed上构建了基准基线，并提出了一个指导型医学对话生成框架，称为InsMed，以处理混合类型对话。实验结果显示了InsMed的有效性。

Shuai Liu, Hyundong Cho, Marjorie Freedman, Xuezhe Ma, Jonathan May: RECAP: Retrieval-Enhanced Context-Aware Prefix Encoder for Personalized Dialogue Response Generation. 8404-8419

在 chatbot 中赋予一个一致的个性对于进行引人入胜的对话至关重要，然而这仍然是一个尚未解决的挑战。在这项工作中，我们提出了一种新的检索增强方法，用于个性化的响应生成。具体来说，我们设计了一个在对话领域数据上训练的层次变压器检索器，用于执行个性化的检索，并设计了一个上下文感知的前缀编码器，更有效地将检索到的信息融合到解码器中。对真实世界数据集的大量实验证明了我们的模型在生成更流利和个性化的响应方面的有效性。我们在一套人工和自动度量标准下对我们的模型的性能进行了定量评估，并发现它在英语 Reddit 对话中相比最先进的基线模型表现更为优越。

Fanghua Ye, Zhiyuan Hu, Emine Yilmaz: Modeling User Satisfaction Dynamics in Dialogue via Hawkes Process. 8875-8889

对话系统受到越来越多的关注，而评估其性能仍然是一个具有挑战性的问题。用户满意度估计（USE）被提出作为一种替代方法。它假设对话系统的性能可以通过用户满意度来衡量，并使用一个估计器来模拟用户。USE的有效性在很大程度上取决于估计器。现有的估计器独立地在每个轮次预测用户满意度，并忽略了对话中跨轮次的满意度动态。为了充分模拟用户，考虑满意度动态是至关重要的。为了填补这一空白，我们提出了一种新的估计器 ASAP（通过 Hawkes 过程进行满意度估计），它将跨轮次的用户满意度视为一个事件序列，并采用 Hawkes 过程来有效地模拟这个序列中的动态。在四个基准对话数据集上的实验证明，ASAP能够明显优于最先进的基线估计器。

Yiyang Li, Xinting Huang, Wei Bi, Hai Zhao: Pre-training Multi-party Dialogue Models with Latent Discourse Inference. 9584-9599

处理多方对话比处理一对一的双方对话更加困难，因为它涉及多个交流者，导致回复关系和信息流交织在一起。为了跨越这些障碍，一个有效的方法是预训练一个能理解多方对话话语结构的模型，即每个话语回复给谁。然而，由于多方对话语料库中缺乏明确标注的话语标签，先前的研究未能通过将未标记的多方会话数据搁置不理来扩展预训练过程。为了充分利用未标记的数据，我们提出将话语结构视为潜在变量，然后通过无监督的潜在变量推断方法共同推断它们并预训练具有话语意识的模型。多个下游任务上的实验证明，我们的预训练模型在性能上大幅胜过强基线，并取得了最先进的结果，验证了我们方法的有效性。这篇论文的官方实现可在 https://github.com/EricLee8/MPD_EMVI 找到。

Luyao Zhu, Wei Li, Rui Mao, Vlad Pandelea, Erik Cambria: PAED: Zero-Shot Persona Attribute Extraction in Dialogues. 9771-9787

提取个性属性对于个性化人机交互至关重要。对话是传达和传递个性信息的重要媒介。尽管存在一个用于从对话中提取三元组式个性属性的公共数据集，但其自动生成的标签存在许多问题，包括关系不明确和注释不一致。我们通过利用更可靠的文本标签匹配标准来解决这些问题，生成高质量的用于个性属性提取的数据。我们还提出了一种基于对比学习和生成的模型，采用一种新颖的硬负采样策略，用于广义零样本个性属性提取。我们在我们的数据集和一个公共数据集上使用最先进的基线对我们的模型进行基准测试，展示了卓越的准确性提升。我们的采样策略在个性属性提取方面也明显优于其他方法。

Junkai Zhou, Liang Pang, Huawei Shen, Xueqi Cheng: SimOAP: Improve Coherence and Consistency in Persona-based Dialogue Generation via Over-sampling and Post-evaluation. 9945-9959

大规模语料库上训练的语言模型在开放域对话中可以生成非常流利的结果。然而，对于基于个人特征的对话生成任务，一致性和连贯性也是关键因素，这对语言模型来说是巨大的挑战。现有的工作主要集中在有价值的数据筛选、模型结构修改或目标函数设计上，然而它们的改进有限，并且难以推广到所有类型的预训练语言模型。然而，我们发现如果我们考虑足够的生成，语言模型可以产生一致和连贯的回应。因此，问题在于大规模响应生成和目标响应选择。在这项工作中，我们提出了一种简单但有效的两阶段SimOAP策略，即过采样和后评估。过采样阶段通过现有训练模型的压缩和提取方法，高效地获取大规模的响应，后评估阶段则基于来自大规模候选响应的多个精心设计的评估指标选择一个良好的响应。实验证明，所提出的SimOAP策略改进了基础模型，并在自动和人工评估中优于基线策略。

Zhenyu Zhang, Lei Shen, Yuming Zhao, Meng Chen, Xiaodong He: Dialog-Post: Multi-Level Self-Supervised Objectives and Hierarchical Model for Dialogue Post-Training. 10134-10148

对话表示和理解旨在将对话输入转化为嵌入并完成判别性任务。与自由文本相比，对话具有两个重要特征，即分层语义结构和多层面属性。因此，直接应用预训练语言模型（PLMs）可能导致性能不佳。最近，一些工作专注于对话自适应后训练（DialPost），进一步训练PLMs以适应对话。为了更全面地建模对话，我们提出了一种DialPost方法，称为Dialog-Post，该方法具有多级自监督目标和一个分层模型。这些目标利用对话特定属性，并使用自监督信号充分促进对话的表示和理解。新型模型是一个分层的分段自注意力网络，包含内部段和间隔段自注意子层，后跟聚合和更新模块。为了评估我们方法的有效性，我们首先应用了两个用于验证表示能力的公共数据集。然后，我们在一个新标记的数据集上进行实验，该数据集用4个对话理解任务进行了注释。实验结果表明，我们的方法优于现有的SOTA模型，平均提高了3.3%。

Jiyue Jiang, Sheng Wang, Qintong Li, Lingpeng Kong, Chuan Wu: A Cognitive Stimulation Dialogue System with Multi-source Knowledge Fusion for Elders with Cognitive Impairment. 10628-10640

与认知障碍的老年人交流时，认知刺激（CS）有助于维护老年人的认知健康。数据稀疏性是构建基于CS的对话系统的主要挑战，尤其是在中文领域。为了填补这一空白，我们构建了一个中文CS对话（CSConv）数据集，其中包含约2.6K组对话，带有治疗原则和情感支持策略标签。在提供情感支持的同时进行闲聊被大多数现有认知对话系统忽视了。在本文中，我们提出了一种用于CS对话（CSD）的多源知识融合方法，以生成由治疗原则和情感支持策略指导的开放式回复。我们首先使用基于外部知识的渐进蒙版方法学习编码器作为有效的分类器，这是预测目标回复的治疗原则和情感支持策略的先决条件。然后，解码器与感知到的治疗原则和情感支持策略互动以生成回复。在CSConv数据集上进行的大量实验证明了所提方法的有效性，但与人类表现相比仍有很大的提升空间。

Jianzhu Bao, Rui Wang, Yasheng Wang, Aixin Sun, Yitong Li, Fei Mi, Ruifeng Xu: A Synthetic Data Generation Framework for Grounded Dialogues. 10866-10882

在训练基于对话的响应生成模型时，通常需要大量的基于场景的对话数据。然而，构建这样的对话成本较高。在这篇论文中，我们提出了一个基于合成数据的对话生成框架（SynDG）。生成过程利用大型预训练语言模型和免费可用的知识数据（例如维基百科页面、个人资料等）。设计SynDG的关键思想是在生成过程中考虑对话流和一致性。具体而言，给定知识数据，我们首先通过启发式方法确定一个对话流，即一系列知识片段。然后，我们使用T5逐步将对话流转化为对话。为了确保对话流和合成对话的一致性，我们设计了一个两级过滤策略，分别在流级和话语级进行。在两个公共基准测试上的实验证明，我们的框架生成的合成对话数据能够显著提高模型在完整训练数据和低资源情景下的性能。

Zeming Liu, Ping Nie, Jie Cai, Haifeng Wang, Zheng-Yu Niu, Peng Zhang, Mrinmaya Sachan, Kaiping Peng: XDailyDialog: A Multilingual Parallel Dialogue Corpus. 12240-12253

高质量的数据集对于对话模型的发展至关重要。然而，大多数现有的用于开放领域对话建模的数据集局限于单一语言。缺乏多语言开放领域对话数据集不仅限制了对多语言或跨语言迁移学习的研究，还阻碍了能够在世界其他地区部署的健壮开放领域对话系统的发展。在这篇论文中，我们提供了一个多语言平行开放领域对话数据集，名为XDailyDialog，以便研究人员探索多语言和跨语言开放领域对话的挑战性任务。XDailyDialog包括4种语言中对齐的13K个对话（总共有52K个对话和410K个话语）。然后，我们提出了一个对话生成模型，kNN-Chat，它具有一种新颖的kNN搜索机制，支持单语、多语和跨语对话的统一响应检索。实验证明了这一框架的有效性。我们将很快公开XDailyDialog和kNN-Chat。

Zhengliang Shi, Weiwei Sun, Shuo Zhang, Zhen Zhang, Pengjie Ren, Zhaochun Ren: RADE: Reference-Assisted Dialogue Evaluation for Open-Domain Dialogue. 12856-12875

对于开放领域对话系统的评估存在挑战，原因之一是一对多问题，即除了黄金响应之外还有许多合适的响应。目前，自动评估方法需要更好地与人类保持一致，而可靠的人工评估可能会耗时且成本高昂。为此，我们在多任务学习框架下提出了基于参考的对话评估（RADE）方法，该方法利用预先创建的话语作为参考，而不仅仅是黄金响应，以缓解一对多问题。具体而言，RADE明确比较参考和候选响应以预测它们的综合得分。此外，辅助响应生成任务通过一个共享编码器增强了预测。为了支持RADE，我们通过人工注释对三个数据集进行了扩展，除了黄金响应之外还包括额外的评分响应。在我们的三个数据集和两个现有基准上的实验证明了我们的方法的有效性，与人工评估的皮尔逊、斯皮尔曼和肯德尔相关性优于最先进的基线。

Yunshui Li, Binyuan Hui, ZhiChao Yin, Min Yang, Fei Huang, Yongbin Li: PaCE: Unified Multi-modal Dialogue Pre-training with Progressive and Compositional Experts. 13402-13416

感知多模态信息并与人类进行对话是人工智能的长期目标。预训练通常被认为是多模态对话的有效方法。然而，由于多模态对话数据的有限可用性，对多模态对话预训练的研究仍然很有限。然而，多模态对话的全面性质引发了另一个有趣的挑战，它涉及各种模态和任务。此外，新形式的任务可能在未来的不可预测的时间点出现。因此，设计多模态对话模型具有足够的灵活性以适应这些情景是至关重要的。本文提出了PaCE，一种统一的、结构化的、组合的多模态对话预训练框架。它利用多个基本专家的组合来适应多个与对话相关的任务，并可以使用有限的对话和广泛的非对话多模态数据进行预训练。此外，我们提出了一种渐进式的训练方法，过去的专家可以协助新的专家，促进他们能力的扩展。实验证明，PaCE在八个多模态对话基准上取得了最先进的结果。

Jing Xu, Megan Ung, Mojtaba Komeili, Kushal Arora, Y-Lan Boureau, Jason Weston: Learning New Skills after Deployment: Improving open-domain internet-driven dialogue with human feedback. 13557-13572

冻结模型被训练来模拟静态数据集，无法提高其性能。能够在部署过程中利用互联网检索获取最新信息，并从人类那里获得反馈的模型有望既适应新信息，又提高性能。在这项工作中，我们研究了如何在这样的学习框架中改善基于互联网的会话技能。我们收集了人类交互的部署数据，并公开了这些数据，收集了各种类型的人类反馈，包括二进制质量测量、自由文本反馈和失败原因的细粒度反馈。然后，我们研究了从这些反馈中改进的各种算法，包括标准监督学习、拒绝抽样、模型引导和基于奖励的学习，以便就哪种类型的反馈和算法效果最好提出建议。我们发现最近引入的DIRECTOR模型（Arora等，2022年）相对于其他现有方法显示出显著的改进。

Tingchen Fu, Xueliang Zhao, Lemao Liu, Rui Yan: On the Compositional Generalization in Versatile Open-domain Dialogue. 13585-13605

以往的研究已经证明了多任务学习促进会话代理获取多种技能的潜力。然而，这些方法要么在不同数据集之间产生干扰（也称为负迁移），要么未能有效地重用从其他数据集学到的知识和技能。与以往的研究不同，我们开发了一种稀疏激活的模块化网络：（1）我们提出了一套全面的运算符，并用独立的模块实例化每个运算符；（2）我们将对话生成形式化为执行生成的程序，该程序递归地组合和组装模块。通过自动评估和人工评估，在9个数据集上进行了大量实验证明了我们方法的有效性。值得注意的是，由于模块化架构和多任务学习，我们的模型在仅使用10%的训练数据的情况下在4个数据集上优于最先进的监督方法。

Shen Gao, Xin Cheng, Mingzhe Li, Xiuying Chen, Jinpeng Li, Dongyan Zhao, Rui Yan: Dialogue Summarization with Static-Dynamic Structure Fusion Graph. 13858-13873

在最近几年，对话成为Web上最基础且特权的语言领域，逐渐在网络中变得越来越普遍。在许多实际的Web应用程序中，如电子邮件主题摘要和会议纪要起草，快速查看长对话上下文并捕捉分散在整个对话会话中的显著信息有利于用户。对话摘要是一项具有挑战性的任务，因为对话具有动态交互性质，并且各种发言者之间的信息流可能不一致。许多研究人员通过使用外部语言工具包使用预先计算的静态图结构对对话进行建模来解决这一任务。然而，这些方法严重依赖于外部工具的可靠性，静态图构建与图表示学习阶段不连贯，这使得图不能动态适应下游摘要任务。在本文中，我们提出了一种静态动态图对话摘要模型（SDDS），它融合了来自人类专业知识的先验知识，并以端到端的学习方式自适应地学习图结构。为验证SDDS的有效性，我们在三个基准数据集（SAMSum、MediaSum和DialogSum）上进行了实验，结果验证了SDDS的优越性。

Mingqi Gao, Xiaojun Wan, Jia Su, Zhefeng Wang, Baoxing Huai: Reference Matters: Benchmarking Factual Error Correction for Dialogue Summarization with Fine-grained Evaluation Framework. 13932-13959

事实性对于对话摘要至关重要。纠正模型生成的摘要中的事实错误（FEC）是改善事实性的一种方法。目前依赖于事实性度量的FEC评估不够可靠且详细。为解决这个问题，我们首次为对话摘要手动注释了一个包含4000个项目的FEC数据集，并提出了FERRANTI，这是一个基于参考纠正的细粒度评估框架，可以自动评估FEC模型在不同错误类别上的性能。利用这个评估框架，我们在各种设置下进行了足够的FEC方法实验，找到了最佳的训练模式以及现有方法在不同事实错误类别上性能的显著差异。

Weihao Zeng, Lulu Zhao, Keqing He, Ruotong Geng, Jingang Wang, Wei Wu, Weiran Xu: Seen to Unseen: Exploring Compositional Generalization of Multi-Attribute Controllable Dialogue Generation. 14179-14196

当前的可控对话生成工作主要集中在单属性控制上，缺乏对分布之外的多属性组合的泛化能力。在这篇论文中，我们探讨了多属性可控对话生成的组合泛化，其中模型可以从已见的属性值中学习，并推广到未见的组合。我们提出了一种基于提示的分解可控对话生成模型，DCG。它通过生成面向属性的提示向量来学习属性概念的组合，并使用分解损失来解开不同属性，以实现更好的泛化。此外，我们设计了一个统一的无参考评估框架，用于多个属性，具有不同粒度的级别。在两个基准测试上的实验证明了我们的方法和评估指标的有效性。

Yicheng Zou, Kaitao Song, Xu Tan, Zhongkai Fu, Qi Zhang, Dongsheng Li, Tao Gui: Towards Understanding Omission in Dialogue Summarization. 14268-14286

对话摘要旨在将冗长的对话内容浓缩成简明的摘要，近年来取得了显著的进展。然而，现有方法的结果仍然不够令人满意。先前的研究表明，省略是影响摘要质量的主要因素之一，但很少有人进一步探讨省略问题，例如省略如何影响摘要结果以及如何检测省略，这对于减少省略并提高摘要质量至关重要。此外，分析和检测省略依赖于带有省略标签的摘要数据集（即在摘要中省略了哪些对话话语），这在当前文献中并不可用。在这篇论文中，我们提出了OLDS数据集，为对话摘要提供了高质量的省略标签。通过分析这个数据集，我们发现通过为摘要模型提供地面实况省略标签，可以显著提高摘要质量，这证明了省略检测对于在对话摘要中减少省略和提高质量的重要性。因此，我们制定了一个省略检测任务，并展示了我们提出的数据集能够很好地支持该任务的训练和评估。我们还呼吁基于我们提出的数据集进行省略检测的研究行动。我们的数据集和代码已公开提供。

Sarah E. Finch, James D. Finch, Jinho D. Choi: Don’t Forget Your ABC’s: Evaluating the State-of-the-Art in Chat-Oriented Dialogue Systems. 15044-15071

尽管对话系统取得了巨大的进展，但稳定的评估仍然需要人类判断，由于其固有的主观性，这产生了臭名昭著的高方差度量。此外，对话评估中的方法和标签尚未完全标准化，特别是对于开放领域的聊天，缺乏比较和评估这些方法有效性的工作。不一致的评估使用可能会误导对话系统的性能，这成为提升系统性能的主要障碍。因此，我们需要对面向聊天的开放领域对话系统进行可靠的维度评估，以可靠地衡量对话能力的多个方面。本文提出了一种新颖的人工评估方法，用于估计许多对话系统行为的频率。我们的方法用于评估四个最先进的开放领域对话系统，并与现有方法进行比较。分析表明，我们的行为方法更适用于维度评估这些系统，相对于替代的Likert式或比较方法。

Jingsheng Gao, Yixin Lian, Ziyi Zhou, Yuzhuo Fu, Baoyuan Wang: LiveChat: A Large-Scale Personalized Dialogue Dataset Automatically Constructed from Live Streaming. 15387-15405

开放领域对话系统近年来取得了令人鼓舞的进展。尽管最先进的对话代理是基于大规模社交媒体数据和大型预训练模型构建的，但由于预训练模型的有限可迁移性和Reddit、微博等公共数据集的偏倚分布，不能保证这些代理在快速增长的场景中，如直播流，也能表现良好。为了提高响应的基本能力并在实时开放领域场景中建立基准，我们引入了LiveChat数据集，由133万个包含351个人物的实际中文对话组成，每个人物平均会话数接近3800，每个人物都有细致入微的个人资料。LiveChat通过处理互联网上的大量直播视频自动构建，自然地属于多方对话的范畴，需要考虑“谁对谁说了什么”这一问题。因此，我们针对响应建模和地址识别这两个关键任务提出了基于先进技术的检索基线。实验证实了利用人物资料和每个人物更大的平均会话数的积极效果。此外，我们还对先进的基于生成的模型在LiveChat上的可迁移性进行了基准测试，并提出了一些当前挑战的未来方向。

Siru Ouyang | Jiaao Chen | Jiawei Han | Diyi Yang：Compositional Data Augmentation for Abstractive Conversation Summarization

最近的抽象对话摘要系统通常依赖于带有注释摘要的大规模数据集。然而，收集和注释这些对话可能是一项耗时且劳动密集的任务。为解决这个问题，我们在这项工作中提出了一种子结构级别的组合数据增强方法Compo，用于生成多样且高质量的对话和摘要对。具体而言，Compo首先提取对话结构，如主题拆分和动作三元组等基本单元。然后，我们以组合方式组织这些有语义意义的对话片段，以创建新的训练实例。此外，我们在自训练和联合训练范式中都探讨了耐噪声设置，以充分利用这些增强样本。我们在基准数据集SAMSum和DialogSum上的实验证明，Compo通过在有限数据上实现ROUGE分数的近10%增长，明显优于先前的基线方法。代码可在 https://github.com/ozyyshr/Compo 获取。

Jinfeng Zhou | Zhuang Chen | Bo Wang | Minlie Huang：Facilitating Multi-turn Emotional Support Conversation with Positive Emotion Elicitation: A Reinforcement Learning Approach

情感支持对话（ESC）旨在通过提供情感支持（ES）来改善一个人的精神状态。现有工作仅限于拟合基于事实的回应和回应策略（例如问题），忽略了对ES的影响，并缺乏明确的目标来引导情感积极转变。为此，我们引入了一种新的范式，将多轮ESC形式化为积极情感唤起的过程。解决这个任务需要在对话进行过程中精细调整ES的唤起强度，同时保持对话目标，如连贯性。在本文中，我们提出了Supporter，一种基于专家混合的强化学习模型，并设计了ES和对话连贯性奖励，以指导策略学习以进行回应。实验证实了Supporter在实现积极情感唤起的过程中的优越性，同时保持了包括连贯性在内的对话目标。

Mingzhu Cai | Siqi Bao | Xin Tian | Huang He | Fan Wang | Hua Wu：Query Enhanced Knowledge-Intensive Conversation via Unsupervised Joint Modeling

在这篇论文中，我们提出了一种用于知识密集型对话的无监督查询增强方法，即QKConv。QKConv包括三个模块：查询生成器、现成的知识选择器和响应生成器。QKConv通过联合训练进行优化，通过探索多个候选查询并利用相应的选择知识生成响应。联合训练仅依赖于对话上下文和目标响应，免除了额外的查询注释或知识来源。为了评估所提出的QKConv的有效性，我们在三个代表性的知识密集型对话数据集上进行了实验：会话问答、任务导向型对话和知识基础对话。实验结果表明，QKConv在三个数据集上的性能均优于所有无监督方法，并与监督方法相比取得了竞争性的表现。

Hossein A. Rahmani | Xi Wang | Yue Feng | Qiang Zhang | Emine Yilmaz | Aldo Lipani：A Survey on Asking Clarification Questions Datasets in Conversational Systems

理解用户潜在需求的能力对于会话系统至关重要，尤其是在对话中用户提供有限的输入时。因此，在这个领域，通过提出澄清性问题（ACQs）来从用户的查询或话语中揭示真实意图变得至关重要。然而，值得注意的是，现有ACQs研究的一个关键局限性是它们的不可比性，表现为对数据的不一致使用、不同的实验设置和评估策略。因此，在这篇论文中，为了帮助ACQs技术的发展，我们对当前ACQs研究状态进行了全面分析，提供了对公开可用数据集的详细比较，并讨论了应用的评估指标，同时为多个与ACQs相关的任务提供了基准。特别是，通过对ACQs任务的深入分析，我们讨论了ACQs的研究方向以及会话系统的发展。

Wendi Li | Wei Wei | Xiaoye Qu | Xian-Ling Mao | Ye Yuan | Wenfeng Xie | Dangyang Chen：TREA: Tree-Structure Reasoning Schema for Conversational Recommendation

会话型推荐系统（CRS）旨在通过对话及时追踪用户的动态兴趣，并生成与物品推荐相关的响应。最近，各种外部知识库（尤其是知识图谱）被纳入CRS，以增强对话背景的理解。然而，最近基于推理的模型过于依赖简化的结构，如线性结构或固定分层结构进行因果推理，因此无法充分了解与外部知识相关的话语之间的复杂关系。为解决这个问题，我们提出了一种名为TREA（Tree structure Reasoning schEmA）的新型树状推理结构。TREA构建了一个多层次可扩展的树作为推理结构，以明确提到的实体之间的因果关系，并充分利用历史对话生成更合理、更适合推荐结果的响应。对两个公共CRS数据集的大量实验证明了我们方法的有效性。

Jaewoo Ahn | Yeda Song | Sangdoo Yun | Gunhee Kim：MPCHAT: Towards Multimodal Persona-Grounded Conversation

为了构建自洽的个性化对话代理，先前的研究主要集中在传递个人事实或个性的文本角色。然而，为了充分描述个性的多方面特性，图像模态可以更好地展现说话者的个人特征和情节记忆中的经历。在这项工作中，我们将基于角色的对话扩展到多模态领域，并做出两个主要贡献。首先，我们提出了第一个多模态基于角色的对话数据集，命名为MPCHAT，该数据集通过文本和图像扩展角色以包含情节记忆。其次，我们经验证明，引入多模态角色，如三个提出的多模态角色驱动对话任务（即下一个响应预测、角色驱动预测和说话者识别）所测量的，显著提高了所有任务的性能。因此，我们的工作强调了多模态角色对提高多模态对话理解的重要性，而我们的MPCHAT则成为这方面研究的高质量资源。

Hao Sun | Yang Li | Liwei Deng | Bowen Li | Binyuan Hui | Binhua Li | Yunshi Lan | Yan Zhang | Yongbin Li：History Semantic Graph Enhanced Conversational KBQA with Temporal Information Modeling

对话信息建模是会话型知识库问答（KBQA）中的一个重要任务。然而，现有方法通常假定话语相互独立，并在孤立的情况下对其进行建模。在这篇论文中，我们提出了一种名为“History Semantic Graph Enhanced KBQA”（HSGE）的模型，它能够在维持低计算成本的同时，有效地建模对话历史中的长程语义依赖关系。该框架包括一个上下文感知编码器，它采用动态内存衰减机制，并以不同粒度对上下文进行建模。我们在一个用于复杂顺序问答的广泛使用的基准数据集上评估了HSGE。实验结果表明，在所有问题类型上，它的性能均优于现有的基线模型。

Naoki Otani | Jun Araki | HyeongSik Kim | Eduard Hovy： A Textual Dataset for Situated Proactive Response Selection

最近的数据驱动型对话模型能够对任务型场景中的许多请求和话语返回流利、一致且信息丰富的响应。然而，这些响应通常仅限于即时的本地主题，而不是更广泛地主动推动对话，例如提出建议以帮助客户实现他们的目标。这种不足反映了对话系统对对话参与者的情境和隐含目标理解的不足。为解决这个问题，我们引入了基于情境信息的主动响应选择任务。我们提供了一个手动策划的数据集，包含1.7k个英语对话示例，每个对话示例都包括情境背景信息以及一组响应，其中只有一些在特定情境中是可以接受的。一个反应灵敏且见多识广的对话系统应该能够选择适当的响应并避免不合适的响应；这样做表明了对起始请求和情境进行足够理解的能力。我们的基准实验证明，即使对于强大的神经模型来说，这也并非易事，为未来的研究提供了机会。

Fengran Mo | Kelong Mao | Yutao Zhu | Yihong Wu | Kaiyu Huang | Jian-Yun Nie：ConvGQR: Generative Query Reformulation for Conversational Search

在对话式搜索中，用户对当前对话轮的真实搜索意图取决于先前的对话历史。从整个对话上下文中确定一个良好的搜索查询是具有挑战性的。为了避免昂贵的查询编码器重新训练，大多数现有方法尝试学习一个重写模型，通过模仿手动查询重写来去上下文化当前查询。然而，手动重写的查询并不总是最佳的搜索查询。因此，基于它们训练重写模型可能会导致次优的查询。增强搜索查询的另一个有用信息是问题的潜在答案。在本文中，我们提出了ConvGQR，一个基于生成式预训练语言模型（PLM）的新框架，其中一个用于查询重写，另一个用于生成潜在答案。通过结合两者，ConvGQR 可以生成更好的搜索查询。此外，为了将查询重构与检索任务关联起来，我们提出了一种知识注入机制，以优化查询重构和检索。对四个对话式搜索数据集的大量实验证明了ConvGQR的有效性。

Duzhen Zhang | Feilong Chen | Xiuyi Chen：DualGATs: Dual Graph Attention Networks for Emotion Recognition in Conversations

捕捉复杂的上下文依赖在对话情感识别（ERC）中起着至关重要的作用。先前的研究主要关注于说话者感知的上下文建模，忽视了对话的话语结构。在本文中，我们引入了双图注意力网络（DualGATs），以同时考虑对话结构和说话者感知上下文的互补方面，从而实现更精确的ERC。具体而言，我们设计了一个Discourse-aware GAT（DisGAT）模块，通过分析话语之间的依赖关系来整合话语结构信息。此外，我们开发了一个Speaker-aware GAT（SpkGAT）模块，通过考虑话语之间的说话者依赖关系来整合说话者感知的上下文信息。此外，我们设计了一个交互模块，促进了DisGAT和SpkGAT模块之间相关信息的有效交流。我们在四个数据集上进行了广泛的评估，实验结果表明我们提出的DualGATs在大多数数据集上超过了最先进的基线模型。

Xuan Long Do | Bowei Zou | Shafiq Joty | Tran Tai | Liangming Pan | Nancy Chen | Ai Ti Aw：Modeling What-to-ask and How-to-ask for Answer-unaware Conversational Question Generation

会话问答生成（CQG）是机器帮助人们通过对话实现信息需求的关键任务。该任务通常分为两种不同的设置：答案感知和答案不感知。虽然前者通过公开期望的答案来为模型提供便利，但后者更为现实，并近年来受到越来越多的关注。在答案不感知的设置中，要问什么和如何问是两个主要的挑战。为了解决第一个挑战，现有方法主要选择上下文中的顺序句子作为合理性的依据。我们认为，使用这种简单的启发式方法生成的对话可能不够自然，因为对话者通常会谈论与上下文中不一定是顺序的相关内容。此外，先前的方法隐含地决定要生成的问题类型（布尔/跨度为基础）。明确建模问题类型是至关重要的，因为答案（提示模型生成布尔或基于跨度的问题）不可用。为此，我们提出了SG-CQG，一个两阶段CQG框架。对于要问什么的阶段，从我们构建的语义图中选择一个句子作为合理性，并从中提取答案跨度。对于如何提问的阶段，分类器通过两个显式的控制信号确定问题的目标答案类型，然后生成和过滤。此外，我们提出了Conv-Distinct，一个用于CQG的新型评估度量，以评估从上下文中生成的对话的多样性。与现有的答案不感知的CQG模型相比，提出的SG-CQG取得了最先进的性能。

Dou Hu | Yinan Bao | Lingwei Wei | Wei Zhou | Songlin Hu：Supervised Adversarial Contrastive Learning for Emotion Recognition in Conversations

提取广义和稳健的表示是会话中情感识别（ERC）的一个主要挑战。为了解决这个问题，我们提出了一种监督对抗对比学习（SACL）框架，以监督方式学习类别扩散结构化表示。SACL应用对比感知对抗训练生成最坏情况的样本，并使用联合类别扩散对比学习来提取结构化表示。它可以有效利用标签级特征一致性并保留细粒度的类内特征。为了避免对上下文相关数据产生负面影响，我们设计了一种上下文对抗训练（CAT）策略，从上下文中学习更多多样的特征，并增强模型的上下文鲁棒性。在具有CAT的框架下，我们开发了一种基于序列的SACL-LSTM，以学习ERC的标签一致和上下文鲁棒的特征。在三个数据集上的实验证明，SACL-LSTM在ERC上实现了最先进的性能。扩展实验证明了SACL和CAT的有效性。

Xiaoheng Zhang | Yang Li：A Cross-Modality Context Fusion and Semantic Refinement Network for Emotion Recognition in Conversation

会话中的情感识别（ERC）因其在共情对话系统中的应用而受到极大关注。然而，大多数先前的研究只是简单地连接多模态表示，导致冗余信息的累积和模态之间有限的上下文交互。此外，它们只考虑简单的上下文特征，忽略了语义线索，导致对话中的语义一致性和一致性的捕捉不足。为了解决这些局限性，我们提出了一种跨模态上下文融合和语义细化网络（CMCF-SRNet）。具体而言，我们首先设计了一个跨模态局部约束变压器来探索多模态交互。其次，我们研究了一种基于图的语义细化变压器，解决了话语之间语义关系信息不足的问题。对两个公共基准数据集的广泛实验证明了我们提出的方法相对于其他最先进的方法的有效性，显示了其在情感识别中的潜在应用。我们的模型将在 https://github.com/zxiaohen/CMCF-SRNet 上提供。

Tao Shi | Shao-Lun Huang：MultiEMO: An Attention-Based Correlation-Aware Multimodal Fusion Framework for Emotion Recognition in Conversations

情感识别对话（ERC）是自然语言处理领域中日益受欢迎的任务，旨在准确分类在对话中由说话者表达的话语的情感。大多数现有方法侧重于基于文本模态对说话者和上下文信息建模，而多模态信息的互补性尚未充分利用，很少有当前方法能充分捕捉不同模态之间的复杂相关性和映射关系。此外，现有的最先进ERC模型难以对少数和语义上相似的情感类别进行分类。为解决这些挑战，我们提出了一种新颖的基于注意力的关联感知多模态融合框架，命名为MultiEMO，通过基于双向多头交叉注意力层捕捉文本、音频和视觉模态之间的跨模态映射关系，有效地集成多模态线索。我们提出的样本加权焦点对比（SWFC）损失缓解了识别少数和语义上难以区分的情感类别的困难。对两个基准ERC数据集的广泛实验证明，我们的MultiEMO框架在两个数据集的所有情感类别上始终优于现有的最先进方法，对少数和语义上相似的情感的改进尤为显著。

Wenjie Zheng | Jianfei Yu | Rui Xia | Shijin Wang： A Facial Expression-Aware Multimodal Multi-task Learning Framework for Emotion Recognition in Multi-party Conversations

最近，多方面情感识别对话（MERMC）引起了相当大的关注。由于多方对话中视觉场景的复杂性，大多数先前的MERMC研究主要关注文本和音频模态，而忽视了视觉信息。最近，一些工作提出提取面部序列作为视觉特征，并显示了视觉信息在MERMC中的重要性。然而，针对一个话语，先前方法提取的面部序列可能包含多个人的面部，这将不可避免地为真实说话者的情感预测引入噪音。为解决这个问题，我们提出了一个名为Facial expression-aware Multimodal Multi-Task learning（FacialMMT）的两阶段框架。具体而言，首先设计了一种流水线方法，用于提取每个话语的真实说话者的面部序列，该方法包括多模态面部识别、无监督面部聚类和面部匹配。利用提取的面部序列，我们提出了一种多模态面部表情感知情感识别模型，该模型利用帧级面部情感分布来帮助基于多任务学习提高话语级情感识别。实验证明了提出的FacialMMT框架在基准MELD数据集上的有效性。源代码已公开发布在https://github.com/NUSTM/FacialMMT。