我们是如何测试人工智能的（八）包含大模型的企业级智能客服系统拆解与测试方法 – 大模型 RAG

最新推荐文章于 2024-09-26 17:23:00 发布

测试开发软件测试性能测试自动化测试

最新推荐文章于 2024-09-26 17:23:00 发布

阅读量957

点赞数 26

文章标签：人工智能软件测试自动化测试测试开发

本文链接：https://blog.csdn.net/Ceshiren666/article/details/137507742

版权

作者：山治

大模型的缺陷 – 幻觉

接触过 GPT 这样的大模型产品的同学应该都知道大模型的强大之处，很多人都应该调戏过 GPT，跟 GPT 聊很多的天。作为一个面向大众的对话机器人，GPT 明显是鹤立鸡群，在世界范围内还没有看到有能跟 GPT 扳手腕的存在。也许很多人都认为 GPT 是非常强大的对话机器人了，它学时丰富，什么领域内的问题都能回答。但其实就如我上一篇帖子中说道的，虽然这种大模型看似什么问题都能回答，但其实它无法在特定领域内给出专业且精准的回答。比如我们问大模型宝马 5 系的发动机的设计细节，这个是不可能得到正确的答案的。甚至我们问一个大模型苹果今天的股价是多少，它也是回答不出来的。如下图：
在这里插入图片描述

这是为什么呢，看过我之前教程的同学就知道人工智能是你给它什么样的数据，它就训练出什么样的效果。所以大模型可以根据海量的训练数据，找出数据之间的规律从而推理出用户想要的答案。但这个答案涉及的知识范围无法脱离训练数据的基础。也就是说大模型可以根据训练数据得出人类的语言习惯，内容组织的方式，它知道输出什么样的内容是人类容易理解的，但是它自己掌握的知识范围没办法超出训练数据包含的范围。所以用户在限定的知识范围内提出的问题，大模型可以给出近乎完美的答案。但超出了这个范围它就无能为力了，如果是比较容易识别的场景会得出上面那样的回复，这样起码用户会知道大模型无法回答这个问题。但更多的场景下可能会出现大模型的幻觉问题。

幻觉用大白话来说就是模型在瞎编一个答案。比如我在问 GPT 一个代码问题的时候，其实会发现有些时候它会瞎编一些不存在的函数出来。为什么会出现这种问题，这就要涉及到它的训练原理了。我在之前的教程中说过所有监督学习基本上都逃不开二分类，多分类和回归这三种类型。而大模型其实就可以划分为一个多分类模型。因为实际上它的原理是有我们有一个词表，这个词表里包含了这个语言的大部分常用词，比如是中文的词表的话可能包含了绝大部分的中文字。而模型实际上在生成答案的时候就是使用用户的问题去计算生成的第一个字应该是哪个字，词表中每一个词都会计算一个概率，比如词表中一共有 1w 个字，模型就会去计算这 1w 个字中，每个字出现在当前位置上的概率，取概率最高的那个输出。然后模型再用问题 + 生成的第一个字 为基础又去词表中计算第二个字，以此类推。所以对于大模型本身来说它并不知道绝对的正确答案是什么，它只是在会在词表中取出概率最高的那个字。所以用户才会感觉到大模型总是在瞎编一个答案。

说回对话机器人中的意图识别

大模型的幻觉是无法避免的，起码靠大模型自己是无法避免的，就像上面说的，它并不知道真实的答案，它只是去猜一个它认为最靠谱的答案给用户。所以说回上一篇中提到的，对话机器人一般会在最前方设定一个多分类的模型，名为意图识别模型。它的责任就是根据用户的问题去计算出应该由哪个子系统来回答用户的问题。这正是因为我们知道很多问题是大模型无法回答的。它没有专业的知识（比如你问宝马 5 系的发动机要如何更换，它需要到知识引擎中检索对应文档），或者无法回答实时变动的问题（比如苹果今天的股价是多少，它需要发送到搜索引擎中检索答案）。所以一个看似简单的客服对话机器人，实际上是一