AI前沿简报20250812——xAI免费开放Grok-4,百川智能医疗领域超越OpenAI,多家厂商开源免费模型,视频生成与多模态能力全面升级

大家好,我是ALLMHUB,AI前沿简报将为您定期整理AI最新咨询,助您在极短的时间里了解AI界的各类大事件。

本期,AI领域迎来密集更新,xAI免费开放Grok 4模型,智谱AI发布开源旗舰视觉推理模型GLM-4.5V,百川智能医疗大模型全球登顶。同时,Pika AI推出音频驱动视频生成,腾讯开源微信生态文档理解框架WeKnora,微软发布专业提示词标记语言POML。苹果宣布iOS 26将集成GPT-5,百度搜索全面上线AI功能,谷歌发布3D视觉编辑框架BlenderFusion,轻量级TTS模型Kitten TTS仅需1500万参数即可实现高质量语音合成。


百川医疗大模型全球登顶

百川智能开源医疗大模型Baichuan-M2在HealthBench评测中获得60.1分,超越OpenAI模型成为全球领先开源医疗模型。该模型经轻量化处理可单卡部署,大幅降低医疗机构成本,复杂医疗问题处理能力与GPT-5相当。

Pika AI音频驱动视频生成

Pika发布音频驱动视频生成模型,能以近实时方式生成超真实表情视频。该技术支持任意长度和风格视频制作,6秒内完成高清视频生成,速度提升20倍且成本大幅降低,即将在Pika social app中推出。

苹果iOS 26集成GPT-5

苹果宣布下月发布的iOS 26系统将集成ChatGPT-5模型,显著提升Apple智能性能。新增实时翻译和内容搜索优化功能,用户无需OpenAI账户即可使用,关联账户可享受订阅优惠。

智谱AI开源视觉推理旗舰

智谱AI发布基于MOE架构的GLM-4.5V视觉推理模型,采用1060亿总参数设计,120亿激活参数。该模型支持多模态输入,在多个基准测试中达到SOTA性能,是当前开源领域最强视觉推理模型。

微软推出专业提示词语言

Microsoft POML是微软最新发布的提示词编排标记语言,解决了结构化缺失、复杂数据整合困难等四大痛点。微软提供Node.js和Python SDK,用户可用专门格式管理和维护提示词。

xAI免费开放Grok 4模型

xAI Grok 4和Grok Imagine现已免费向用户开放,系统自动将复杂问题分配给更强大的Grok 4处理。用户可选择专家模式全程使用,最新X客户端还上线了图片转视频功能。

腾讯开源微信文档理解框架

腾讯开源专为复杂文档设计的RAG框架WeKnora,整合视觉-文本多模态处理和混合向量检索策略。该框架特别适合微信生态场景,已作为微信对话开放平台核心技术,支持零代码快速部署。

阿里Qwen-Code每日免费额度

阿里Qwen团队为Qwen-Code CLI工具提供每日2000次免费API调用额度,支持高达1M tokens上下文长度。相比上线初期用户容易欠费的问题,现在2000次额度完全够用。

谷歌发布3D视觉编辑框架

谷歌推出BlenderFusion创新框架,提升3D视觉编辑与生成合成能力。该框架集成先进3D编辑工具与扩散模型,工作流程包括分层、编辑和合成三阶段,优化了对复杂场景的处理能力。

轻量级TTS模型仅1500万参数

开源Kitten TTS文本转语音模型参数量仅1500万,体积小于25MB。支持无GPU运行,能在普通CPU上实现高质量语音合成,提供简单安装使用指南,用户可快速上手生成音频。

百度搜索全面上线AI功能

百度搜索PC端全面上线AI功能,新增"超级智能双行框"和"工作台"模块,集成AI阅读、写作和PPT工具。百度AI搜索月活跃用户已超3.22亿,稳居国内AI搜索行业第一。

昆仑万维发布音频对口型模型

昆仑万维推出SkyReels-A3模型,基于DiT视频扩散模型实现音频驱动数字人创作。该模型能使静态图像或视频中人物根据语音内容开口说话或唱歌,支持改台词、运镜控制等功能。


更多大模型咨询及使用教程尽在ALLMHUB

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值