NLP学习笔记-浅谈对话系统_nlp 对话评估-CSDN博客

本文链接：https://blog.csdn.net/CSDNXXCQ/article/details/120952366

本文探讨了对话系统的不同类型，包括生成式、检索式和任务完成型对话，以及它们在实际应用中的融合。生成式对话面临着巨大的挑战，如语境整合和一致性。检索式对话则尝试通过条件概率解决多样性的回答。任务完成型对话强调达成用户目标。此外，对话系统还面临语境、人格一致性和意图多样性等挑战。

摘要由CSDN通过智能技术生成

本文目录

引子

图灵测试（The Turing test）由艾伦·麦席森·图灵提出，指测试者与被测试者（一个人和一台机器）隔开的情况下，通过一些装置（如键盘）向被测试者随意提问。
进行多次测试后，如果机器让平均每个参与者做出超过30%的误判，那么这台机器就通过了测试，并被认为具有人类智能。图灵测试一词来源于计算机科学和密码学的先驱艾伦·麦席森·图灵写于1950年的一篇论文《计算机器与智能》，其中30%是图灵对2000年时的机器思考能力的一个预测，我们已远远落后于这个预测

从非功利的角度讲，我们研究对话系统，自然也是希望它能通过图灵测试的。

概念引入

简单来讲，对话任务分为任务完成型和闲聊型，分别对应限定域对话和开放域对话，同时，在用户实际的对话需求中，除了简单聊天和完成特定场景下的特定的任务，还有一大类知识获取（即问答）的需求。而这类问答对话又可以分为基于知识图谱的对话（KB-Dialogue）和检索式多轮问答等更加细化的方向。除此之外，闲聊、任务完成与问答三者之间也不是完全割裂的。

同样的道理，它们与限定域和开放域的关系也并非一一对应的，任务完成为导向的对话也不一定就是限定域的，闲聊也不一定是开放域的，比如给定一个主题或文章而展开的场景化闲聊。

对于闲聊任务，主流方法分为两类，基于检索的方法与基于生成的方法。显然兵分两路的话就代表各自都有各自的优缺点，当然也有一些工作试图将两者进行结合.。

生成式对话

对于生成式对话，可以说一言难尽。虽然看似可以将对话看作是seq2seq问题，然而我们知道在机器翻译问题上成功的seq2seq范式很大程度上是因为翻译的source和target有相对确定的token-level的对应关系，例如中英翻译任务上，输入为"资本家，你工人爷爷来了"，那么对应的输出空间其实非常有限。

然而在对话任务上，输入为"资本家，你工人爷爷来了"时对应的输出空间非常大

显然，如果同样建模成生成问题，机器翻译任务相当于每个输入问题都有一个差不多的标准答案，即属于“客观题”；而对话生成任务则相当于一个“主观题”，只要不偏题就行，没有标准回答，好坏全看个人文采。这里面的难度是很难想象的，因此对生成式对话系统（开放域）的评估一直是一个很让人头疼的问题，需要高度依赖人工评定。

更不用说在不同的人，不同的时间，不同的条件，不同的语境下生成对应的回答。

检索式对话

在这里插入图片描述

关于检索式，最简单的检索就是一一对应，比如，今天你吃了吗，对于这句话，这个问题，我们设定一个标准的回答，“刚吃，你呢”，一个很简单，也很现实的问题，如果我用不同的发问方式并且是同样的意思，比如，“你好啊，今天吃了没”，这样的回答还能生效吗，自然是不能的，怎么解决呢，一个简单粗暴的方式就是，我把你会问的所有的问题做成一个记录，检测到你对应的问题，我直接调用答案就是，问题在于，就目前的状况来说，计算机扛不住，至少我们能接触到的是扛不住这样的运算规模的，但是这样的想法是最简单，也是最直接而且效果最好的，那么，有没有同样的方式，或者说类似的方式使得我们能达到同样的效果，且对算力要求相对较低达到我们能接受的程度。
可以这样想，一句话，只要意思类似，我们能不能做出同样的回答，自然是可以，那么我们只要将之归类，或者说通过某种运算方式让相同意思的句子在数值上接近，自然就能达到我们想要的效果，很自然的，我们就想到条件概率。