国产大模型王炸!API 正式免费用,第一手白嫖分析

 Datawhale干货 

亲测:潘笃驿,港科大(广州),Datawhale成员

今年6月,智谱AI的最新版大模型 GLM-4-Flash 上线, API 价格为每 100 万 token 0.1 元,吸引了大量的开发者使用。

而在今日,智谱 BigModel 开放平台正式宣布:GLM-4-Flash 全部免费,同时开启限时免费微调活动。

495e065fdaa726dc1cc29bbf3f0af6cf.png

现在国内大模型的价格已经这么卷了吗?我们也在第一时间去白嫖体验了一下~

fec13d61b8e87a155a171fc085fdd7e6.png

在使用的过程中我们也发现,除了API 免费之外, GLM-4-Flash 还开启了限时免费微调活动:https://open.bigmodel.cn/dev/howuse/finetuning,有相关需求的学习者可以前往体验。

当然,大模型厂商如果只是一味地跟风卷价格战是没有意义的,想要真正长期获得开发者和用户的青睐,至少要满足三个条件:

一是模型本身性能要足够强,否则即便免费,也难以吸引并留住用户长期依赖;

二是模型 API 要足够易用, 要对微调支持友好,过分复杂的操作会劝退用户;

三是要有核心技术作为驱动和长期支撑,确保模型在不断迭代中保持竞争力,满足市场对高性能AI工具的持续需求。

白嫖体验后,我们来拆解和分析一下智谱AI BigModel开放平台 GLM-4-Flash免费的原因。

GLM-4-Flash性能超越Llama 3

或许大家对 GLM-4-Flash 这个名字有些陌生 ,其实它背后的最新基座模型就是 GLM-4 大模型。

GLM-4 大模型是智谱在今年 1 月推出的新一代基座大模型,它的性能超越了同参数量级的 Llama 3。

逻辑推理能力往往是衡量模型性能的重要标准,其决定了模型在求解数学题、完成复杂任务等方面上的能力,GLM-4-Flash 在这方面的表现非常突出,它在中英文、语义、数学、推理、代码和知识等多方面的数据集测评中,均表现出超过 Llama 3的卓越性能。

可以说无论是堪比 GPT-4 的 Function Call 函数调用能力 ,还是能够理解和使用一系列外部工具来辅助回答问题或完成任务的All Tools”能力,GLM-4-Flash 背后的 GLM-4 都有着十分不错的水平。

51b297ca7d17b94ed30c68ed112d8dc1.png

此外,实测下来发现,GLM-4-Flash 的生成速度也是快到飞起,高达每秒 72 token,约等于每秒115字符。

这可能也是该模型之所以叫 GLM-4-Flash 的原因之一吧。

对微调支持友好,GLM-4-Flash 简单易上手

GLM-4-Flash 本身的能力十分优秀,但有时候直接调用API还不太够用,因为很多时候我们希望大模型处理特定专业领域或公司私有业务时,由于训练语料库中缺乏相关数据,大模型可能无法满足这些特定需求。

这时就需要对大模型进行微调,即在我们的专属语料库上进行二次训练。通过微调,我们可以向大模型注入特定的新知识或交互方式,使其能够更好地应对我们的专业领域或业务场景。

微调有两种常见方法LoRA 微调和全参数微调,智谱AI大模型开放平台bigmodel上都支持,而且整个过程只需要下面三步。

b7fd7ec45542172f5b90c33d8ebb1aba.png

具体的微调过程,我们邀请到了组织成员潘笃驿对 GLM-4-Flash 的微调进行了一番实测。

首先是LoRA 微调。

在 RolePlay 领域,我们希望通过大模型来扮演特定角色,并模仿这些角色的交互习惯,以与用户进行沉浸式互动。然而,由于大模型在训练数据中往往缺乏对特定角色交互方式的深入了解,它们在模拟角色时通常显得较为机械,难以提供真正生动的角色扮演体验。

通过智谱 AI 大模型开放平台的 LoRA 微调技术,可以以很低的成本对大模型进行微调,快速创造出属于我们自己的 AI 角色。以 Chat 嬛嬛项目为例,我们希望大模型能够在与用户的交互中,准确扮演甄嬛的人设,从而提供更逼真和持续的互动体验。

下面是微调后的互动结果,可以看到模型的表现还是相当不错的,回答基本上都符合甄嬛的设定。如果需要更强的表现效果,可以增加训练 Epoch,但要注意,过高的 Epoch 可能导致模型过度拟合,降低实际应用效果。

65128b20857bf20d26e9dde02f1d41a6.png

其次是全参数微调。

在医学问答领域,我们希望通过大模型提供专业、精准的医疗建议,能够应对复杂的医学问题。然而,大模型在原始训练数据中往往缺乏针对特定医学领域的深入知识,导致在回答医学问题时可能不够精准或详尽,难以满足用户对高质量医疗信息的需求。

相比于 LoRA 微调,全参数微调更适合当模型需要学习新的专业知识时使用。通过全参数微调,我们可以让模型在特定领域的数据上进行全面训练,使其真正掌握新的医学知识,而不仅仅是调整部分参数。这种方法使模型能够在医学问答中表现得更加权威和准确,从而快速构建出一个具备深度医学专业知识的 AI 助手,确保其在与用户互动时提供高质量、可信赖的医疗解答。

微调完之后可以看到模型的表现还是相当不错的,同样的,我们也可以通过增加训练 Epoch 来进一步提升模型效果。

530a2179815fa26d94b0c7fe9ccd4c97.png

由于篇幅有限,关于笃驿更加详细的微调操作,可以公众号后台回复“GLM微调" 获取。

总结来说,GLM-4-Flash 非常适合简单垂直和快速响应的任务,除了我们Datawhale成员的实测,智谱AI的官方也提供了一些案例,大家可以拿来参考:

3f4cc899cd10eeed0610ba73c7102b34.png

核心技术驱动,GLM-4-Flash 背后是智谱普惠AI的愿景

为何 GLM-4-Flash 或者说背后的 GLM-4这么强?

这背后,为了使小模型具备更加强大的能力,智谱 GLM 技术团队进行了大量探索工作。

比如在预训练方面,他们引入了大语言模型进入数据筛选流程,最终获得了 10T 高质量多语言数据,数据量是 ChatGLM3-6B 模型的 3 倍以上。同时,他们采用了 FP8  技术进行高效的预训练,相较于GLM第三代模型,训练效率提高了 3.5 倍。综合以上技术升级和其他经验,GLM-4 模型具备了更强大的推理性能、更长的上下文处理能力、多语言、多模态和 All Tools 等突出能力。

本次 GLM-4-Flash 这次推理成本大幅下降也是源于智谱AI 技术的持续进步:

智谱AI通过多种方式优化大模型运行效率。开放平台采用自适应权重量化、多种并行化方式、批处理策略以及投机采样等多种方法,在推理层面实现模型的延迟降低与速度提升,更大并发量和吞吐量不仅提升了效率,而且让推理成本显著降低。

智谱此次选择把模型API免费化,这背后其实折射的是智谱普惠AI的愿景。

尽管大模型再厉害,但只有把想象力只有转化为现实的生产力才具有真正的革命性意义。智谱认为,价格是快速推动人类前往通用人工智能的必要路径,让AI更加普惠是加速AGI进程的必要使命。

比如对于企业To C产品而言,覆盖上亿用户的产品每天需要千亿Tokens的吞吐,这对于企业而言是巨大成本。这导致当前大模型的使用只能优先覆盖成本比较高的设备,而现在的大模型的成本无法支撑相对低端的大众设备。如果调用智谱AI免费的GLM-4-Flash,大模型可以覆盖到全终端、全设备。

其实智谱的普惠AI的愿景还体现在开源方面,智谱一直是开源生态的积极参与者和构建者。

比如性能强大的 GLM-4 模型发布即开源,智谱的文生视频产品清影背后的模型 CogVideoX 也在前些天免费开源,是国内同类模型的首次开源。

智谱AI:GLM-4-Flash 免费详情

GLM-4-Flash 是智谱首次开放免费 API 的大模型,支持长度达 128K 的上下文。在用户调用量上,智谱做到了原有调用用户并发不变,新用户有两个并发,还可以申请进一步提高。

而在 GLM-4-Flash 微调赠送额度上,如果立即申请,你可以获得 500 万 token (3 个月)的训练资源包,限额 2000 位,先到先得。智谱还将开放 GLM-4-Flash 模型的更多能力,致力于构建更好的部署平台。

无论是 API 免费开放使用,还是模型免费开源,智谱 AI 做到了优先和一大波开发者用户的双向奔赴。

是时候体验大模型的应用开发了!

5add466cd18a68b3590e431deb5bb445.png

点击阅读原文,开始白嫖。

  • 10
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值