国产大语言模型应用能力小测：ReAct COT 能力评测-CSDN博客

编者按：一直有客户问我们国产大模型的能力如何，我们院首席工程专家Eric上周从我们这个帮助企业实际落地应用的角度出发做了一个评测，我们分享出来。当然并不是跑分的那种，如果你要看SuperCLUE等跑分的话到处都是。

随着国产模型的百花齐放，选择基于哪种模型进行开发变得愈发重要。在文生文模型领域，国内有一些知名模型，如百度的文心一言、讯飞的星火、抖音的豆包（基于云雀模型）、智谱的智谱清言（基于ChatGLM），甚至蓝厂（Vivo）也发布了蓝心小V（基于BlueLM）。

最近我尝试了一下蓝厂的大模型应用，发现效果还不错。本文将通过简单的ReAct+COT提示词测试，验证在ReAct COT应用场景下，哪些模型表现较好。

为何测试ReAct+COT场景？

文生文模型主要提供基本的COT（常识、逻辑、推理）能力，结合用户输入的提示词回答问题。然而，预训练模型本身无法回答训练结束后的新知识。若用户需要模型根据私有知识或实时网络信息回答问题，而模型提供商未主动整合网络搜索，大模型无法胜任。一些应用场景需要模型不仅提供基本常识，还需要结合私有知识或与私有服务对接，实现复杂的场景。

文生文模型通常用于传统客服机器人等场景，但大模型赋予我们更大的灵活性，无需强制限制用户输入。大模型可根据用户输入信息自动提取、摘要，并以更人性化的方式输出。这些都是预训练模型提供的基本能力，类似于高中生具备基本逻辑和语言表达能力，但若需要回答未学过的知识，需要先给予相关提示词上下文，就像给学生扔一本书让其学习后再回答问题。

然而，提示词上下文的长度并非无限制，通常为4K、8K、16K、32K等。随着长度增加，大模型会迅速遗忘前面的内容。因此，无法一次性将所有新知识直接放入上下文。为了解决这个问题，可以采用动态加载，根据用户输入检索本地向量库的知识，将这些知识作为参考上下文传递给大模型。这样，大模型始终能获取最相关的私有知识，减少对上下文的消耗，提高回答准确性。

加载私有知识到上下文的挑战

但是，什么时候将私有知识加载到上下文呢？用户每次输入都先查询一遍向量库？这不是一个好的方案，因为token消耗太高了。大模型的响应速度、硬件资源消耗和提示词token与完成token长度都成正相关，这些都是宝贵的资源，尤其是在显卡受到制裁，价格波动成倍增长的情况下。即使使用公有云大模型，对应的就是token消耗的暴增。

解决方案是依据大模型基本的COT（常识、逻辑、推理）能力，对提示词进行特殊构造。要求大模型在需要从外部系统拉取外部知识时，返回特定结构的消息，触发本地程序查询私有知识并加入到上下文。

这种生成特定结构JSON的方式有两种。

一种是模型提供商针对模型进行微调，需要调用外部系统时自动返回特定结构的消息，如OpenAI的function calling。这当然很好，也是性能比较好、比较节约token的方式。

参考:

Function calling and other API updates (openai.com)

但是，针对开源模型，目前原生支持类似function calling功能的并不多。已知智谱的ChatGLM3明确提到原生支持工具调用。

参考:

ChatGLM3/tools_using_demo/README.md at main · THUDM/ChatGLM3 (github.com)

然而，对于没有这种原生支持function calling的模型怎么办呢，可以采用ReAct方式。通过针对提示词特殊构造，引导大模型基于基本COT能力和提示词上下中的必要思维提示步骤，输出所需的JSON。实验证明，这种方式可以显著增强回答的准确性，透过其中的Action步骤，还可以整合外部调用，动态丰富上下文信息。

详细了解ReAct的方式可参考