（一）Jointly Optimizing Diversity and Relevance in Neural ResponseGeneration

出门左拐是海

于 2021-04-05 15:48:22 发布

阅读量180

点赞数

Jointly Optimizing Diversity and Relevance in Neural Response
Generation

摘要

虽然最近的神经谈话模型剃须表现出巨大的潜力，但它们经常会产生膨胀和通用的回应。当探索各种方法来多样化对话模型的产出来实现，改善往往以减少相关性（Zhang等，2018 ）。在本文中，我们提出了一种空间模型，共同优化了多样性和相关性，通过利用新颖的正则化条款来共同优化序列到序列模型的潜像和自动编码器模型的潜在空间。结果，我们的方法诱导潜在的空间，其中距离预测响应矢量的距离和方向分别大致匹配相关性和分集。本质也很好地呈现出直观的潜伏空间的可视化。自动和人类评估结果均表明，与多样性和相关性的强基金线相比，该方法的拟议方法会产生显着的改善。

1.介绍

神经反应生成领域在研究和商业应用方面迅速推进（Gao等，2019;周等人，2018; yoshino等，2019年;张等人，2019）。无管，香草序列到序列（S2S）模型通常会产生平淡和通用响应（Li等，2016a）.li等人。（2016a）通过重新排名梁搜索结果，通过与其相互信息重新排名梁搜索结果来鼓励多样性然而，随着光束搜索本身通常产生几乎相同的序列列表，该方法可能需要大的光束宽度（EG200）。

结果，重新排名可能是非常耗时的，提高实时应用的困难。这突出了改善重新排名前改善候选人多样性的需要，并且需要在训练期间优化多样性而不是在解码阶段。虽然已经探索了各种方法来使会话模型的产出量化多样化，但是改进通常以其他维度降低响应相关性的成本。（Zhao等人）Zhao等人。（2017）通过绘制不同的反应来提高增强多样性的方法使用条件变分自动编码器（CVAE）的概率分布。分别改进的响应分集，该方法降低了对基线测量的响应相关性。

这种多样性相关权衡的一个可能原因是，这种概率方法并不明确鼓励诱导潜在空间中的解除戒开代表，以独立控制多样性和相关性。考虑到高斯分布，广泛用于CVAE.A高斯分布自然地带来了频繁的响应附近其平均值，而且这种反应通常是通用的和乏味的。要产生多样化和有趣的反应，需要从平均值上抽出一点距离。但是这样做自然导致不频繁，因此即使是无关的反应。

在本文中，我们提出了一种新的几何方法，该几何方法明确促进了所结构化的潜在空间，其中来自预测响应矢量的距离和方向分别大致匹配相关性和分集，如图1所示。为了诱导如此潜在的空间，我们利用两种不同的型号：1）S2S模型，产生预测的响应矢量（图1中的黑点），以及2）自动编码器（AE）模型，产生潜在响应的向量（彩色点）。为了使S2S和AE共享相同的潜像（云），我们使用相同的解码器，并以新颖的正则化术语共同培训它们。这使得两个潜在空间融合，我们将我们的模型称为空间。

必要是必要的，因为仅作为（Luan等，2017）中的解码器共享（Luan等，2017），不一定将S2S和AE获得的潜在空间对齐，或者将解除戒开的结构强加到空间上。我们介绍了两个正规化术语来解决这个问题问题1）插值术语：我们鼓励沿着预测响应矢量和每个目标响应矢量之间的路径的平滑语义转换（图1中的箭头线）.This有效地防止了在相同方向上对准语义不同的响应，基本上散射它们在不同的方向上.2）融合项：我们希望从两种模型中的向量以均匀的方式分布，而不是形成两个可以使采样非琐事的分隔簇（图5）。由此产生的潜在空间，我们可以通过分别从秘密调整距离和方向来控制相关性和多样性TED响应载体，而不大大牺牲。

我们的方法也非常适合潜在的空间的直观可视化.SINCE我们的模型不仅可以在图5中的目标响应载体上的几何上发现，我们可以在视觉上解释潜在空间的结构并识别其主要问题。我们奉献第5.1节向基于可视化的分析表明综合例子。自动和人类评估表明，与两个数据集的强大基线相比，拟议的方法提高了响应的多样性和相关性，与两个数据集中的强有力相比上下文 - 响应映射。

2.相关工作

接地的对话模型利用除了对话历史之外的额外上下文输入，例如persona（li等，2016b），文本知识（Ghazvininejad等，2017; Galley等，2019），对话框（Zhao等，2017））和情感（Huber等，2018）。我们的方法不依赖于这种额外的输入，因此与这一研究系列互补。

变形式自动编码器（VAE）模型明确地模拟了La-TAX SPACE.BOWMAN等人的响应的不确定性。（2016）使用了长短期内存（LSTM）细胞的vae来生成句子。VAE的基本思想是将输入X编码为概率分布（例如高斯）z而不是一个点编码。然而，它存在消失的潜在变量问题（Bowman等，2016; Zhao等，2017）应用于文本生成任务时.bow-man等。（2016）;福等人。（2019）建议用单词掉落和特定的kl退火方法解决这个问题。（2017）建议添加一个词汇丢失，与KL退火互补。将其施加到CVAE对话模型中，他们表明即使是贪婪的解码也会产生多样化的反应。 - 以往，因为VAE / CVAE对话模型可以限于标准高斯分布等简单的潜在表示，如诸如标准高斯分布，所以。（2018）建议通过利用A来丰富潜在空间高斯混合事先。我们的工作采用几何方法，从根本上与概率方法不同，以解决参数分布在培训中的参数分布和困难的局限性。

在解码阶段进行解码和排序励志。“vanilla”光束搜索通常会产生几乎相同序列的列表，Vijayakumar等。（2016）建议在梁搜索解码的目标中包括分类相似项.Li等人。（2016A）通过使用单独训练的响应对上下文S2S模型来基于相互信息重新排序梁搜索的结果.Multi-Task学习是与本作有关的另一行研究（参见第3.2节） .sennrich等人。（2016）使用多任务学习通过利用单声道数据来改进神经机转换，这通常远远超过并行数据量。栾等人的应用程序应用。（2017）对会话建模应用，涉及两个任务：1）一个S2S模型，用于使用对话数据学习上下文映射，以及使用扬声器特定的非对话数据的AE模型。S2S和AE的解码器分享，两项任务均可拨打。