今天我们来评测一下各个大模型的指令遵循能力。这是一项比较专业的指标,简单说就是大模型是否能够通过原生提示词实现智能体(Agent)的功能。我这里手搓了一个智能体(Agent)提示词,复杂度一般,我们来测一下不同的大模型是否能遵从提示词指令正确输出。以下是手搓的agent提示词:
通过智匠MindCraftAI,我们逐一测试了包括deepseek-chat, GLM4-Flash, GLM4-Air等在内的多个模型。
测试结果显示,各模型在遵循指令方面表现不一。一些模型能够准确返回预期指令,有一些则跑偏了。通过详细的对比表格,我们可以看到测试结果。
这是对原生agent指令的初步的评测,有些大模型有专门function_call功能,不代表他们不能做智能体。
通过这次评测, 我们不仅了解了各模型在智能体指令遵循能力上的表现, 也对智匠AI(MindCraft AI)的实用性和高效性有了更深的认识。期待在未来的评测中,我们能看到更多AI技术的进步,以及智匠AI(MindCraft AI)带来的更多可能性。