炸场KDD！国产首个实时视频交互的功能面世，GLM-4-Plus等多个模型同步发布！

AITIME论道

于 2024-08-30 10:36:37 发布

阅读量7

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzOTAxOTk3Nw==&mid=2247527277&idx=1&sn=ad6832643dae14b3f8bfc3b1317b77c5&chksm=e81b166bf2f8d89029f8066d22408af5625f3cc1316516f03cacf671e00eda7dce21963be0b5&scene=126&sessionid=0

版权

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

在昨天的 KDD 国际数据挖掘与知识发现大会上，智谱团队介绍了新一代基座大模型GLM-4-Plus，并且重磅发布了国产首个和“高情商AI”实时交互的「视频通话」功能（更新在智谱清言App，点击阅读原文可以抢先体验）。GLM-4-Plus 是智谱全自研 GLM 大模型的最新版本，它标志着智谱继续瞄准通用人工智能，持续推进大模型技术的独立自主创新。

视频通话功能展示，具体可参考下方视频

主要更新：

语言基座模型 GLM-4-Plus：在语言理解、指令遵循、长文本处理等方面性能得到全面提升，保持了国际领先水平。
文生图模型 CogView-3-Plus：具备与当前最优的 MJ-V6 和 FLUX 等模型接近的性能。
图像/视频理解模型 GLM-4V-Plus：具备卓越的图像理解能力，并具备基于时间感知的视频理解能力。该模型将上线开放平台（ bigmodel.cn ），并成为国内首个通用视频理解模型 API 。
视频生成模型 CogVideoX：在发布并开源 2B 版本后，5B 版本也正式开源，其性能进一步增强，是当前开源视频生成模型中的最佳选择。
智谱开源模型累计下载量已突破 2000 万次，为开源社区的发展做出了重要贡献。

最新基座大模型 GLM-4-Plus上线

GLM-4-Plus 使用了大量模型辅助构造高质量合成数据以提升模型性能；利用 PPO 有效有效提升模型推理（数学、代码算法题等）表现，更好反应人类偏好。

下面是 benchmark 对比：

语言文本能力方面，GLM-4-Plus 和 GPT-4o 及 405B 参数量的 Llama3.1 相当。

Language capabilities

LCB: LiveCodeBench

NCB: NaturalCodeBench

* represents reproduced results

长文本能力比肩国际先进水平。通过更精准的长短文本数据混合策略，取得了更强的长文本的推理效果。

Long Context evaluation

GLM-4V-Plus 在图像和视频理解能力方面位居前列。GLM-4V-Plus 还可以理解网页内容，并将其转换为 html 代码。

Vision capabilities

GLM-4V-Plus 能够理解并分析复杂的视频内容，同时具备时间感知能力。上线开放平台后，将提供国内首个通用视频理解模型 API 。

Video analysis

视频理解示例：

【视频总结能力】+【推理能力】+【多轮对话】+【时间问答能力】

用户：这个穿绿色衣服的球员在整个视频都做了什么？
GLM-4V-Plus：在整个视频中，穿绿色衣服的球员在场上运球，然后跳起将球投入篮筐。
用户：这个视频的精彩时刻是什么？发生在第几秒？
GLM-4V-Plus：这个视频的精彩时刻发生在第4秒，当时穿绿色衣服的球员跳起并将球投入篮筐。

文生图模型迎来最新版本CogView-3-Plus，其效果接近目前最佳的 MJ-V6 及 FLUX 等模型，并支持图片编辑功能。

图片示例：

GLM-4-Plus 现已在智谱大模型开放平台 bigmodel.cn 部署，开发者即日起就能通过 API 方式调用这一智谱最新基座大模型。

清言 app 迎来重要更新

全新的“视频通话”功能来了！

智谱很高兴宣布清言 app 迎来“视频通话”功能，这也是国内首个面向 C 端开放的视频通话功能。

清言作为第一批 C 端上线的大模型产品，过去的一年，常常以文字和语音的形式和大家交流。但从今天起，清言也有了眼睛，解锁了 AI 新体验。

清言视频通话跨越了文本模态、音频模态和视频模态，并具备实时推理的能力。现在，用户拨打清言的视频通话窗口，即可与它进行流畅通话，即便频繁打断它也能迅速反应。只要打开摄像头，我们看到的画面，清言也可以看到，同时可以听懂指令并准确执行。这样的体验就如同和真人视频通话一样。

清言 app 视频通话功能将于8 月 30 日上线，首批面向清言部分用户开放，同时开放外部申请。我们会持续迭代并逐步放开规模，尽快让全员都可以使用。

“视频通话”功能 demo：

随着视频通话功能的加入，清言 app 成为首个可以通过文本、音频、视频和图像来进行多模态互动的 AI 助手。

扫描下方二维码申请，抢先体验清言 app “视频通话”功能～

CogVideoX-5B 开源

GLM-4-Flash 免费

智谱一如既往推动 AI 普惠。

继 CogVideoX 2B 版本开源后，5B 版本也于昨日正式开源，性能更强，推理显存需求最低仅为 11.4 GB。同时 CogVideoX-2B 的开源协议调整为更加开放的 Apache 2.0 协议，任何企业与个人均可自由使用。随着 CogVideoX-5B 的开源，智谱不仅在开源模型数量上领先，累计下载量也突破 2000 万次，智谱以实际行动为国际开源社区做出自己应有贡献。

随着技术进步、效率提升和成本优化，智谱很高兴宣布大模型开放平台 bigmodel.cn 最具性价比的大模型，GLM-4-Flash 现已完全免费，用户可以通过调用 GLM-4-Flash 快速、免费地构建你的专属模型和应用。这也是智谱开放平台首个完全免费的大模型 API 。

专注于大模型的中国创新

最新推出的基座大模型，和此前发布的 CogVideoX 等模型一道，完善了智谱自主原创的全栈大模型谱系，推动智谱实现面向世界先进水平的全面对标。

视频通话功能是清言 app 继 7 月上线生成视频功能清影 Ying 后又一重大更新。通过小步快走持续迭代，智谱努力让大模型技术更好赋能更多用户。

随着开源模型和开放平台模型的广受欢迎，智谱也将继续推动 AI 力量惠及更多人群。通过大模型链接物理世界亿级用户，智谱致力于为千行百业带来持续创新与变革，加速迈向通用人工智能时代。

点击 阅读原文 申请「视频通话」体验！

往期精彩文章推荐

关于AI TIME

AI TIME源起于2019年，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，加强思想碰撞，链接全球AI学者、行业专家和爱好者，希望以辩论的形式，探讨人工智能和人类未来之间的矛盾，探索人工智能领域的未来。

迄今为止，AI TIME已经邀请了1800多位海内外讲者，举办了逾600场活动，超700万人次观看。

我知道你

在看

提出观点，表达想法，欢迎

留言

点击 阅读原文 申请「视频通话」体验！

AITIME论道

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
炸场KDD！国产首个实时视频交互的功能面世，GLM-4-Plus等多个模型同步发布！

点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入！在昨天的 KDD 国际数据挖掘与知识发现大会上，智谱团队介绍了新一代基座大模型GLM-4-Plus，并且重磅发布了国产首个和“高情商AI”实时交互的「视频通话」功能（更新在智谱清言App，点击阅读原文可以抢先体验）。GLM-4-Plus 是智谱全自研 GLM 大模型的最新版本，它标志着智谱继续瞄准通用人工智能，持续推进大模型技术的独立自主创...
复制链接

扫一扫