国产大模型王炸！API 正式免费用，第一手白嫖分析

最新推荐文章于 2025-04-14 10:31:07 发布

Datawhale

最新推荐文章于 2025-04-14 10:31:07 发布

阅读量1.4k

点赞数 19

本文链接：https://blog.csdn.net/Datawhale/article/details/141623194

版权

Datawhale干货

亲测：潘笃驿，港科大（广州），Datawhale成员

今年6月，智谱AI的最新版大模型 GLM-4-Flash 上线， API 价格为每 100 万 token 0.1 元，吸引了大量的开发者使用。

而在今日，智谱 BigModel 开放平台正式宣布：GLM-4-Flash 全部免费，同时开启限时免费微调活动。

现在国内大模型的价格已经这么卷了吗？我们也在第一时间去白嫖体验了一下~

在使用的过程中我们也发现，除了API 免费之外， GLM-4-Flash 还开启了限时免费微调活动：https://open.bigmodel.cn/dev/howuse/finetuning，有相关需求的学习者可以前往体验。

当然，大模型厂商如果只是一味地跟风卷价格战是没有意义的，想要真正长期获得开发者和用户的青睐，至少要满足三个条件：

一是模型本身性能要足够强，否则即便免费，也难以吸引并留住用户长期依赖；

二是模型 API 要足够易用，要对微调支持友好，过分复杂的操作会劝退用户；

三是要有核心技术作为驱动和长期支撑，确保模型在不断迭代中保持竞争力，满足市场对高性能AI工具的持续需求。

白嫖体验后，我们来拆解和分析一下智谱AI BigModel开放平台 GLM-4-Flash免费的原因。

GLM-4-Flash性能超越Llama 3

或许大家对 GLM-4-Flash 这个名字有些陌生，其实它背后的最新基座模型就是 GLM-4 大模型。

GLM-4 大模型是智谱在今年 1 月推出的新一代基座大模型，它的性能超越了同参数量级的 Llama 3。

逻辑推理能力往往是衡量模型性能的重要标准，其决定了模型在求解数学题、完成复杂任务等方面上的能力，GLM-4-Flash 在这方面的表现非常突出，它在中英文、语义、数学、推理、代码和知识等多方面的数据集测评中，均表现出超过 Llama 3的卓越性能。

可以说无论是堪比 GPT-4 的 Function Call 函数调用能力，还是能够理解和使用一系列外部工具来辅助回答问题或完成任务的All Tools”能力，GLM-4-Flash 背后的 GLM-4 都有着十分不错的水平。

此外，实测下来发现，GLM-4-Flash 的生成速度也是快到飞起，高达每秒 72 token，约等于每秒115字符。

这可能也是该模型之所以叫 GLM-4-Flash 的原因之一吧。

对微调支持友好，GLM-4-Flash 简单易上手

GLM-4-Flash 本身的能力十分优秀，但有时候直接调用API还不太够用，因为很多时候我们希望大模型处理特定专业领域或公司私有业务时，由于训练语料库中缺乏相关数据，大模型可能无法满足这些特定需求。

这时就需要对大模型进行微调，即在我们的专属语料库上进行二次训练。通过微调，我们可以向大模型注入特定的新知识或交互方式，使其能够更好地应对我们的专业领域或业务场景。

微调有两种常见方法LoRA 微调和全参数微调，智谱AI大模型开放平台bigmodel上都支持，而且整个过程只需要下面三步。

具体的微调过程，我们邀请到了组织成员潘笃驿对 GLM-4-Flash 的微调进行了一番实测。

首先是LoRA 微调。

在 RolePlay 领域，我们希望通过大模型来扮演特定角色，并模仿这些角色的交互习惯，以与用户进行沉浸式互动。然而，由于大模型在训练数据中往往缺乏对特定角色交互方式的深入了解，它们在模拟角色时通常显得较为机械，难以提供真正生动的角色扮演体验。

通过智谱 AI 大模型开放平台的 LoRA 微调技术，可以以很低的成本对大模型进行微调，快速创造出属于我们自己的 AI 角色。以 Chat 嬛嬛项目为例，我们希望大模型能够在与用户的交互中，准确扮演甄嬛的人设，从而提供更逼真和持续的互动体验。

下面是微调后的互动结果，可以看到模型的表现还是相当不错的，回答基本上都符合甄嬛的设定。如果需要更强的表现效果，可以增加训练 Epoch，但要注意，过高的 Epoch 可能导致模型过度拟合，降低实际应用效果。

其次是全参数微调。

在医学问答领域，我们希望通过大模型提供专业、精准的医疗建议，能够应对复杂的医学问题。然而，大模型在原始训练数据中往往缺乏针对特定医学领域的深入知识，导致在回答医学问题时可能不够精准或详尽，难以满足用户对高质量医疗信息的需求。

相比于 LoRA 微调，全参数微调更适合当模型需要学习新的专业知识时使用。通过全参数微调，我们可以让模型在特定领域的数据上进行全面训练，使其真正掌握新的医学知识，而不仅仅是调整部分参数。这种方法使模型能够在医学问答中表现得更加权威和准确，从而快速构建出一个具备深度医学专业知识的 AI 助手，确保其在与用户互动时提供高质量、可信赖的医疗解答。

微调完之后可以看到模型的表现还是相当不错的，同样的，我们也可以通过增加训练 Epoch 来进一步提升模型效果。

由于篇幅有限，关于笃驿更加详细的微调操作，可以公众号后台回复“GLM微调" 获取。

总结来说，GLM-4-Flash 非常适合简单垂直和快速响应的任务，除了我们Datawhale成员的实测，智谱AI的官方也提供了一些案例，大家可以拿来参考：

核心技术驱动，GLM-4-Flash 背后是智谱普惠AI的愿景

为何 GLM-4-Flash 或者说背后的 GLM-4这么强？

这背后，为了使小模型具备更加强大的能力，智谱 GLM 技术团队进行了大量探索工作。

比如在预训练方面，他们引入了大语言模型进入数据筛选流程，最终获得了 10T 高质量多语言数据，数据量是 ChatGLM3-6B 模型的 3 倍以上。同时，他们采用了 FP8 技术进行高效的预训练，相较于GLM第三代模型，训练效率提高了 3.5 倍。综合以上技术升级和其他经验，GLM-4 模型具备了更强大的推理性能、更长的上下文处理能力、多语言、多模态和 All Tools 等突出能力。

本次 GLM-4-Flash 这次推理成本大幅下降也是源于智谱AI 技术的持续进步：