论文阅读：《A Neural Conversational Model》

小爷毛毛（卓寿杰）

已于 2024-04-10 08:51:34 修改

阅读量2.5k

点赞数 2

分类专栏：深度学习基础/原理大语言模型/对话问答/自然语言处理文章标签：论文阅读深度学习人工智能

于 2018-04-12 22:28:59 首次发布

本文链接：https://blog.csdn.net/u011239443/article/details/79921375

版权

本文探讨了使用序列到序列框架的递归神经网络在会话建模任务中的应用，该模型能从大规模数据集中学习并生成自然对话。在IT故障和开放式字幕数据集上进行实验，表明模型可以执行简单的会话和常识推理，但存在一致性问题。

摘要由CSDN通过智能技术生成

重磅专栏推荐：
《大模型AIGC》
《课程大纲》
《知识星球》

本专栏致力于探索和讨论当今最前沿的技术趋势和应用领域，包括但不限于ChatGPT和Stable Diffusion等。我们将深入研究大型模型的开发和应用，以及与之相关的人工智能生成内容（AIGC）技术。通过深入的技术解析和实践经验分享，旨在帮助读者更好地理解和应用这些领域的最新进展

https://blog.csdn.net/u011239443/article/details/79921375

论文：
https://arxiv.org/pdf/1506.05869.pdf%20(http://arxiv.org/pdf/1506.05869.pdf)

摘要

会话建模是自然语言理解和机器智能中的一项重要任务。虽然以前的方法存在，但它们往往局限于特定的领域（例如预订机票），需要手工制作的规则。在本文中，我们提出了一个简单的方法，这个任务使用最近提出的序列到序列框架。我们的模型预测了交谈的谈话中前面的句子或句子的一句话。我们的模型的优点是可以进行端到端的训练，因此需要少得多手工制作的规则。我们发现，给出了大量的会话训练数据集，这种简单的模型可以生成简单的会话。我们的初步结果表明，尽管优化错误的目标函数，该模型能够很好地进行逆向谈判。它能够从一个特定领域的数据集中提取知识，从一个大的、嘈杂的、一般的电影字幕主数据集中提取知识。在特定于域的IT帮助桌面数据集中，该模型可以通过对话找到一个技术问题的解决方案。在嘈杂的开放域电影转录集中，该模型可以执行简单的常识推理形式。正如预期的那样，我们还发现缺乏一致性是我们模型的常见故障模式。

介绍

神经网络的端到端训练在语音识别、计算机视觉和语言处理等领域取得了显著的进展。最近的研究表明，神经网络可以做的不仅仅是分类，它们可以用来把复杂的结构映射到其他复杂的结构。这方面的一个例子是一个序列映射到另一个序列具有直接应用在自然语言理解的任务（sutskever et al.，2014）。该框架的主要优点是它不需要特征工程和领域特殊性，而匹配或超过最好的结果。在我们看来，这一进步使研究人员能够从事那些可能不容易获得领域知识，或者难以手工设计规则的任务。
会话模型可以直接从这个制定得到效果，因为它需要问答之间的映射。由于这种映射的复杂性，会话建模以前被设计成非常狭窄的领域，在特征工程方面有着重大的任务。在这项工作中，我们实验的会话建模任务，采用递归神经网络，在给定上一个序列或者当前序列，来预测下一个序列&#