深度评测：各大AI模型在智能体指令遵循能力上的表现

高通智匠MindCraft Al

于 2024-06-20 07:00:00 发布

阅读量714

点赞数 12

文章标签：人工智能 gpt ai 功能测试可用性测试

本文链接：https://blog.csdn.net/2401_85549225/article/details/139808547

版权

今天我们来评测一下各个大模型的指令遵循能力。这是一项比较专业的指标，简单说就是大模型是否能够通过原生提示词实现智能体（Agent）的功能。我这里手搓了一个智能体（Agent）提示词，复杂度一般，我们来测一下不同的大模型是否能遵从提示词指令正确输出。以下是手搓的agent提示词：

通过智匠MindCraftAI，我们逐一测试了包括deepseek-chat, GLM4-Flash, GLM4-Air等在内的多个模型。

测试结果显示，各模型在遵循指令方面表现不一。一些模型能够准确返回预期指令，有一些则跑偏了。通过详细的对比表格，我们可以看到测试结果。

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

高通智匠MindCraft Al

关注关注

12
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

参与评论您还未登录，请先登录后发表或查看评论

博客

智谱发布Z1系列推理模型

04-17

532

GLM-4-32B-0414（GLM-4-AIR-250414）指标评测。GLM-4-32B-0414 在工程代码、Artifacts 生成、函数调用、搜索问答及报告撰写等任务上均表现出色，部分 Benchmark 指标已接近甚至超越 GPT-4o、DeepSeek-V3-0324（671B）等更大模型的水平。这个模型推测应该是GLM-4-9B-0414 （GLM-4-FLASH-250414）训练的推理模型，模型参数类似，价格都是免费。

博客

OpenAI全新旗舰款模型GPT4.1系列

04-17

347

价格对比OpenAI此次发布了全新旗舰系列模型GPT4.1系列，包含了GPT4.1，GPT4.1 mini和GPT4.1 nano。接下来说一下GPT4.1系列的指标评测和计费情况。

博客

Gemini 2.5 Pro指标屠榜登顶主流大模型

04-11

415

指标领先：与o3 - mini、GPT4.5、Claude3.7sonnet、Grok3和Deepseek r1等，目前都是主流模型去做对比，Gemini 2.5 Pro在多数指标评测中占优，尤其在视觉能力和长文本能力方面表现突出。Gemini 2.5 Pro目前处于领先，但大模型行业竞争激烈，OpenAI拟推o3和o4 - mini，Claude 3.7或为过渡版本，Qwen3也即将推出，后续模型更新值得期待。客户端、小程序使用，也可于开发者平台调用API。

博客

2025年Q1大模型更新汇总

04-02

1082

本篇内容将盘点2025年Q1所有的主流大模型更新汇总。

博客

通义千问QwQ简评与使用

03-14

1222

通义千问本次发布了QwQ-32B和QwQ-Plus两个推理模型。

博客

Cursor上使用MindCraft API

03-07

372

然后我们打开高通智匠（MindCraft AI）的开发者平台，进入到API KEY的栏目，我们可以看到这里能创建API KEY，还有API BASE URL。好了以后我们随便创建一个新文件，点击右上角打开Chat，然后选择“ask”模式，选择模型列表里的模型，就可以用了。我们看一下高通智匠的平台上支持哪些模型，这里有列出能够调用的大模型。首先我们打开Cursor，进入到设置，进入Models，这里我们可以看到有很多模型，我们看下面这个“OpenAI API KEY”。

博客

将任意模型变成Deepseek R1

03-06

333

比如说大家可以用qwen-plus这种性价比很高，上下文也比较长的模型，也能用doubao-1.5-pro这种性能强价格低的模型，成本能省个五六倍都不止。首先我们要知道推理模型的格式一般是分为“思考过程”和“回复用户”两个部分，在原生推理模型中，思考过程是用<think></think>标签包起来的，在API端则是用了reasoning_content字段用于调用。我们分别试一下模型的默认输出和开启预设指令后的输出。我们先进到高通智匠的客户端，我们去选择一个预设指令，用提示词的方法来实现推理模型的效果。

博客

DeepSeek Janus多模态模型,有何独特之处?

02-24

552

尽管Janus系列在同级别参数模型中展现出技术优势，但在行业顶尖的LLM、图像识别及生成模型面前，尚存在不小差距，因此目前该系列的学术价值高于实用价值，但其潜在前景令人期待。值得注意的是，这些新型多模态模型的开发主要由中国机构推动，例如Emu-3由北京智源人工智能研究院（BAAI）主导，而Show-O的团队则来自字节跳动和新加坡国立大学。区别于传统的多模态模型（一般涉及图像/视频识别，或使用多个独立的模型进行协同工作），Janus系列通过单一模型整合了文本处理、图像识别与图像生成的功能。

博客

Qwen2.5新春三连发——Qwen2.5-1M, Qwen2.5-VL, Qwen2.5-Max

02-12

1549

Qwen2.5新春模型三连发，分别发布了Qwen2.5-1M长上下文模型，Qwen2.5-VL视觉模型以及Qwen2.5-Max旗舰款模型。

博客

妈妈再也不担心我用deepseek卡了

02-11

254

在高通智匠（MindCraft AI）的客户端上接入了deepseek官方，阿里云，百度云，腾讯云，火山引擎（字节跳动），硅基流动（Pro版），六家厂商部署的原版满血deepseek模型，包括deepseek v3和deepseek r1。高通智匠（MindCraft AI）这个应用，可以使用PC客户端，网页版和手机小程序版，也支持API的调用。不仅如此，还可以设定提示词，文件交互，创建个人知识库，网页渲染，图表生成，联网搜索，划词对话，截图对话等等，功能比deepseek官网还丰富。

博客

豆包1.5系列登顶国内外模型-----解读与使用

01-23

2793

这次发布了四个型号，doubao-1.5-pro-32k, doubao-1.5-pro-256k, doubao-1.5-lite-32k, doubao-1.5-vision-pro-32k，价格全部与上一个版本doubao模型一致，加量不加价。Doubao-1.5-lite 在轻量版语言模型中处于全球一流水平，在综合（MMLU_pro）、推理（BBH）、数学（MATH）、专业知识（GPQA）权威测评指标持平或超越 GPT-4omini、Cluade 3.5 Haiku。4、模型基本规格与计费。

博客

DeepSeek R1模型解读与使用

01-22

1万+

下面有个图表，这里可以重点关注DeepSeek-R1-Distill-Qwen-32B这个模型，这也是他们官方标注的，基座采用了Qwen32B的模型，在数学，代码，复杂问题的测试集中跟o1-mini一个水准，远高于GPT4o，Claude3.5-Sonnet，DeepSeek-V3。相比国内的推理模型，价格不算便宜，但性能目前确实最好的，通义千问QWQ预览版输入价格3.5元/百万tokens，输出7元/百万tokens，智谱GLM-ZERO预览版，输入输出10元/百万tokens。这是官方的性能评测图。

博客

智谱四大免费模型GLM-4-FLASH系列

01-21

907

例如，GLM-4-Flash和GLM-4V-Flash在知识问答、文案生成、图像识别和图片打标签等基础任务中表现良好，能够高效完成相关任务。智谱AI目前发布了四大免费模型，分别是文本模型GLM-4-Flash，图片识别模型GLM-4V-Flash，图片生成模型CogView-3-Flash，视频生成模型CogVideoX-Flash。智谱AI是目前国内模型厂商中产品线最全的一家，不仅产品线全，免费模型也是很全，提供了四种不同的免费模型：文本生成、图片识别、图片生成和视频生成。免费模型，支持视频生成。

博客

MiniMax-Text-01——模型详细解读与使用

01-20

1206

RULER是一个基于长上下文的基准，评估模型在处理较长文本时的能力，能够处理更多的信息输入（如超过8k字符）。Gemini2.0FLASH分数最高，MiniMax优于claude3.5sonnet和gemini1.5pro，但是比gpt4o低。点评：长文本下指标的对比测试，再更长文本的情况下，有明显优势。长文本处理的准确率远远领先于大部分模型，与minimax最相近的是gemini1.5pro。远远领先于其他模型。先来看整体指标，以下图表分为三块指标，分别是文本能力，多模态能力以及长文本能力。

博客

用AI工具解读Git项目代码

01-13

1037

本教程将介绍如何利用高通智匠（MindCraft AI）的API和AI代码编程工具Cline，免费解读Git项目的代码。通过简单的步骤配置和操作，用户可以轻松实现对项目结构的深度分析，无论是新手还是经验丰富的开发者都能从中受益。通过高通智匠的API和Cline工具，用户可以轻松实现对Git项目代码的高效解读，无需任何编程基础或额外成本。这一工具不仅适用于新手，也对经验丰富的开发者提供了极大便利。

博客

各品牌大语言模型汇总

01-08

918

2024年大语言模型快速发展，应用广泛。面对众多选择，我们整理了一份各大语言模型汇总表格，提供清晰参考，助您了解各模型参数截止日期为2025年1月8日）。

博客

免费GEMINI模型使用及API调用

01-06

2616

该模型分为两个版本：gemini-2.0-flash-exp 和 gemini-2.0-flash-thinking-exp-1219。预计未来收费模式可能与GPT-4o类似，甚至更低，因为Gemini 1.5 Pro的价格仅为GPT-4o的一半，Gemini 2.0 FLASH对标可能还不是gpt4o，而是gpt4o-mini。：最大输出长度同样为8K，能够生成详细的推理结果。：最大输出长度为8K，适用于生成较长的文本内容。：最大上下文长度为40K，适合推理任务。：支持文字和图片输入，不支持视频输入。

博客

2024年大模型使用总攻略

01-02

1218

2024年，大模型市场竞争异常激烈，各厂商纷纷推出新模型并调整价格策略。性价比王者，输入3元/百万tokens，输出9元/百万tokens。（腾讯混元）：256K上下文，MOE架构，适合大文件摸底。输入3元/百万tokens，输出9元/百万tokens。（智谱）：免费视觉模型，基础任务表现良好。（智谱）：免费视觉模型，基础任务表现良好。：256K上下文，免费，适合大文件摸底。（讯飞星火）：免费模型，适合基础任务。（智谱）：旗舰视觉模型，支持视频识别，（智谱）：10元/百万tokens，

博客

Deepseek V3性能比肩顶尖模型：解读与使用

12-27

1万+

Deepseek在年关前发布了V3版本，并对模型做了比较详细的介绍，首先我们来看一下模型的参数与指标。

博客

QVQ-72B通义千问视觉推理模型：简评与使用

12-26

805

通义千问团队刚刚发布了QVQ-72B-Preview，这是一个专注于增强视觉推理能力的模型，可以理解为视觉版的QWQ。