智谱Realtime、4V、Air新模型发布,上线bigmodel.cn

智谱Realtime、4V、Air新模型发布,上线bigmodel.cn

智谱 2025年01月16日 14:14 北京

图片

继视频通话8月上线「智谱清言」后,我们进一步在语言、语音、图像和视频的理解与生成领域展开深入探索,推出GLM-Voice、GLM-4V、CogView、CogVideoX等多模态模型。

今日,基于对多模态模型的理解与研发积累,我们将发布全新的端到端模型GLM-Realtime,实现低延迟的视频理解与语音交互,该模型融入了清唱功能,并支持长达2分钟的记忆及Function Call功能。 

 

此外,我们同步升级了GLM-4-Air和GLM-4V-Plus模型,致力于提供业界最强性能和性价比的语言模型解决方案。智谱始终致力于以先进的大模型技术回馈社会,特别设立Flash全模态免费模型,涵盖语言、文生图、文生视频及图像理解等多个场景,助力开发者轻松实现应用创新。 

 

现所有模型API已正式上线 bigmodel.cn,欢迎广大开发者访问体验。 

一、新模型GLM-Realtime,限时免费

 

GLM-Realtime在视频通话上具备2分钟的内容记忆能力。在语音交互方面,尤其创新性地实现了清唱功能,首次让大模型具备在对话中的歌唱能力。 

小智清唱<恭喜恭喜>,智谱,36秒

我们将Realtime API集成到智能眼镜和陪伴娃娃中,以便用户可以体验到近乎实时的智能助手交互。我们相信实时视频&语音能力,将为AI硬件的爆发奠定坚实的智能基础。 

,时长01:28

值得一提的是,Realtime进一步支持Function Call功能。不仅能够依靠自身的知识和能力,还能灵活调用外部知识和工具,从而能够拓展到更广泛的商业场景。 

,时长01:11

GLM-Realtime API已经上线智谱开放平台bigmodel.cn,现阶段可以免费调用

二、极致性能:GLM-4-Air /
GLM-4V-Plus

GLM-4-Air上线以来以「高性价比」受到平台开发者的欢迎,今天模型做了全面升级——GLM-4-Air-0111,通过对于训练数据和训练流程的全面优化,在某些维度可以取得与规模更大的模型GLM-4-Plus接近的性能。与此同时, GLM-4-Air-0111模型价格降价到原来的50%,再次降低大模型应用的门槛。

图片

同时,我们针对视觉理解模型GLM-4V-Plus也进行了全面升级。新版本在多个公开榜单上均展现出显著的效果提升。此外,更新后的GLM-4V-Plus支持变分辨率功能,能够适应不同尺寸的图像输入,在小图场景下显著降低token消耗(例如,224 * 224的分辨率下,输入的图像token数仅为原来的3%)。同时支持4K超清图像和极致长宽比图像的无损识别。

图片

新版GLM-4V-Plus具备长达2小时的视频理解能力,为长视频理解和分析领域提供了更加高效、精准的解决方案。

Case1:大模型色盲检测 

图片

Case2:看图讲故事

图片

三、全免费:Flash 系列普惠模型

智谱致力于「大模型普惠」,为助力所有开发者更便捷地利用大模型进行创新,专门设置了针对全社会免费开放 Flash 系列普惠模型 API。作为行业首个全模态的免费系列模型,开发者可以免费调用语言、多模态理解、多模态生成功能。

近期Flash系列也将全面升级,Flash全模态全家桶成员包括: 

  • 语言模型 GLM-4-Flash

  • 图像理解模型 GLM-4V-Flash

  • 图像生成模型 CogView-3-Flash

  • 视频生成模型 CogVideoX-Flash

智谱致力于为用户和伙伴提供世界一流水平的国产大模型技术、

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

强化学习曾小健

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值