AI前沿简报20250812——xAI免费开放Grok-4，百川智能医疗领域超越OpenAI，多家厂商开源免费模型，视频生成与多模态能力全面升级

原创于 2025-08-12 12:08:27 发布 · 966 阅读

·

14

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #开源

大家好，我是ALLMHUB，AI前沿简报将为您定期整理AI最新咨询，助您在极短的时间里了解AI界的各类大事件。

本期，AI领域迎来密集更新，xAI免费开放Grok 4模型，智谱AI发布开源旗舰视觉推理模型GLM-4.5V，百川智能医疗大模型全球登顶。同时，Pika AI推出音频驱动视频生成，腾讯开源微信生态文档理解框架WeKnora，微软发布专业提示词标记语言POML。苹果宣布iOS 26将集成GPT-5，百度搜索全面上线AI功能，谷歌发布3D视觉编辑框架BlenderFusion，轻量级TTS模型Kitten TTS仅需1500万参数即可实现高质量语音合成。

百川医疗大模型全球登顶

百川智能开源医疗大模型Baichuan-M2在HealthBench评测中获得60.1分，超越OpenAI模型成为全球领先开源医疗模型。该模型经轻量化处理可单卡部署，大幅降低医疗机构成本，复杂医疗问题处理能力与GPT-5相当。

Pika AI音频驱动视频生成

Pika发布音频驱动视频生成模型，能以近实时方式生成超真实表情视频。该技术支持任意长度和风格视频制作，6秒内完成高清视频生成，速度提升20倍且成本大幅降低，即将在Pika social app中推出。

苹果iOS 26集成GPT-5

苹果宣布下月发布的iOS 26系统将集成ChatGPT-5模型，显著提升Apple智能性能。新增实时翻译和内容搜索优化功能，用户无需OpenAI账户即可使用，关联账户可享受订阅优惠。

智谱AI开源视觉推理旗舰

智谱AI发布基于MOE架构的GLM-4.5V视觉推理模型，采用1060亿总参数设计，120亿激活参数。该模型支持多模态输入，在多个基准测试中达到SOTA性能，是当前开源领域最强视觉推理模型。

微软推出专业提示词语言

Microsoft POML是微软最新发布的提示词编排标记语言，解决了结构化缺失、复杂数据整合困难等四大痛点。微软提供Node.js和Python SDK，用户可用专门格式管理和维护提示词。

xAI免费开放Grok 4模型

xAI Grok 4和Grok Imagine现已免费向用户开放，系统自动将复杂问题分配给更强大的Grok 4处理。用户可选择专家模式全程使用，最新X客户端还上线了图片转视频功能。

腾讯开源微信文档理解框架

腾讯开源专为复杂文档设计的RAG框架WeKnora，整合视觉-文本多模态处理和混合向量检索策略。该框架特别适合微信生态场景，已作为微信对话开放平台核心技术，支持零代码快速部署。

阿里Qwen-Code每日免费额度

阿里Qwen团队为Qwen-Code CLI工具提供每日2000次免费API调用额度，支持高达1M tokens上下文长度。相比上线初期用户容易欠费的问题，现在2000次额度完全够用。

谷歌发布3D视觉编辑框架

谷歌推出BlenderFusion创新框架，提升3D视觉编辑与生成合成能力。该框架集成先进3D编辑工具与扩散模型，工作流程包括分层、编辑和合成三阶段，优化了对复杂场景的处理能力。

轻量级TTS模型仅1500万参数

开源Kitten TTS文本转语音模型参数量仅1500万，体积小于25MB。支持无GPU运行，能在普通CPU上实现高质量语音合成，提供简单安装使用指南，用户可快速上手生成音频。

百度搜索全面上线AI功能

百度搜索PC端全面上线AI功能，新增"超级智能双行框"和"工作台"模块，集成AI阅读、写作和PPT工具。百度AI搜索月活跃用户已超3.22亿，稳居国内AI搜索行业第一。

昆仑万维发布音频对口型模型

昆仑万维推出SkyReels-A3模型，基于DiT视频扩散模型实现音频驱动数字人创作。该模型能使静态图像或视频中人物根据语音内容开口说话或唱歌，支持改台词、运镜控制等功能。

更多大模型咨询及使用教程尽在ALLMHUB

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。