智谱Realtime、4V、Air新模型发布，上线bigmodel.cn

本文链接：https://blog.csdn.net/sinat_37574187/article/details/145195589

智谱Realtime、4V、Air新模型发布，上线bigmodel.cn

智谱 2025年01月16日 14:14 北京

继视频通话8月上线「智谱清言」后，我们进一步在语言、语音、图像和视频的理解与生成领域展开深入探索，推出GLM-Voice、GLM-4V、CogView、CogVideoX等多模态模型。

今日，基于对多模态模型的理解与研发积累，我们将发布全新的端到端模型GLM-Realtime，实现低延迟的视频理解与语音交互，该模型融入了清唱功能，并支持长达2分钟的记忆及Function Call功能。　

此外，我们同步升级了GLM-4-Air和GLM-4V-Plus模型，致力于提供业界最强性能和性价比的语言模型解决方案。智谱始终致力于以先进的大模型技术回馈社会，特别设立Flash全模态免费模型，涵盖语言、文生图、文生视频及图像理解等多个场景，助力开发者轻松实现应用创新。　

现所有模型API已正式上线 bigmodel.cn，欢迎广大开发者访问体验。　

一、新模型GLM-Realtime，限时免费

GLM-Realtime在视频通话上具备2分钟的内容记忆能力。在语音交互方面，尤其创新性地实现了清唱功能，首次让大模型具备在对话中的歌唱能力。　

小智清唱<恭喜恭喜>,智谱,36秒

我们将Realtime API集成到智能眼镜和陪伴娃娃中，以便用户可以体验到近乎实时的智能助手交互。我们相信实时视频&语音能力，将为AI硬件的爆发奠定坚实的智能基础。

，时长01:28

值得一提的是，Realtime进一步支持Function Call功能。不仅能够依靠自身的知识和能力，还能灵活调用外部知识和工具，从而能够拓展到更广泛的商业场景。　

，时长01:11

GLM-Realtime API已经上线智谱开放平台bigmodel.cn，现阶段可以免费调用。

二、极致性能：GLM-4-Air /

GLM-4V-Plus

GLM-4-Air上线以来以「高性价比」受到平台开发者的欢迎，今天模型做了全面升级——GLM-4-Air-0111，通过对于训练数据和训练流程的全面优化，在某些维度可以取得与规模更大的模型GLM-4-Plus接近的性能。与此同时， GLM-4-Air-0111模型价格降价到原来的50%，再次降低大模型应用的门槛。

同时，我们针对视觉理解模型GLM-4V-Plus也进行了全面升级。新版本在多个公开榜单上均展现出显著的效果提升。此外，更新后的GLM-4V-Plus支持变分辨率功能，能够适应不同尺寸的图像输入，在小图场景下显著降低token消耗（例如，224 * 224的分辨率下，输入的图像token数仅为原来的3%）。同时支持4K超清图像和极致长宽比图像的无损识别。