今天我们来评测一下各个大模型的指令遵循能力。这是一项比较专业的指标,简单说就是大模型是否能够通过原生提示词实现智能体(Agent)的功能。我这里手搓了一个智能体(Agent)提示词,复杂度一般,我们来测一下不同的大模型是否能遵从提示词指令正确输出。以下是手搓的agent提示词:
通过智匠MindCraftAI,我们逐一测试了包括deepseek-chat, GLM4-Flash, GLM4-Air等在内的多个模型。
测试结果显示,各模型在遵循指令方面表现不一。一些模型能够准确返回预期指令,有一些则跑偏了。通过详细的对比表格,我们可以看到测试结果。