1️⃣装满智能体AI的手机,正在呼唤一个“Type-C时刻”
量子位|阅读原文
当手机中装满智能体,下一代AI手机的雏形正在显现。
天玑开发者大会上,手机芯片巨头联发科提出了全新的AGENTIC AI UX雏形。在联发科的畅想中,AI助手不再是一个单纯的执行者,而是变成了一个能够协作,甚至“懂得拒绝”的伙伴。一同发布的,还有全新升级的旗舰5G智能体AI芯片天玑9400+,AI能力再次升级。相比前半代的“端侧AI最强芯”天玑9400,9400+的苏黎世AI能力跑分,又提升了25%。并且支持在端侧运行推理模型,准确率已经超过了o1-mini。
联发科认为,端侧AI向智能体进化,本质是让机器的推理能力无限趋近人类直觉,而推理能力正是其中的关键。这既需要芯片提供澎湃算力基础,也依赖开发工具降低技术落地门槛。所以联发科选择了从软硬件同时入手,让智能体化AI成为融入日常体验的实用工具。
2️⃣OpenAI震撼发布o3/o4-mini,直逼视觉推理巅峰!首用图像思考,十倍算力爆表
新智元|阅读原文
刚刚,OpenAI联创Greg Brockman和首席研究官Mark Chen带队,开启了20分钟线上直播。这次不仅有o3,还有下一代推理模型o4-mini。它们首次实现了「用图像思考」,堪称视觉推理的巅峰之作。
如同AI智能体,两款模型在不到1分钟内,自主判断并组合运用ChatGPT内置工具,生成了详尽周全的答案。其中包括,搜索网页、用Python分析上传的文件及数据、对视觉输入进行深度推理,乃至生成图像。
在Codeforces、SWE-bench、MMMU等基准测试中,o3刷新SOTA,不论是在编程、数学、科学,还是在视觉感知领域都树立了新标杆。尤其是,对于图像、图表、图形分析,o3表现尤为突出,能够深入挖掘视觉输入的细节。用奥特曼的话来说,「接近或达到天才水平」。
不过,这个智力的代价是,需要投入o1十倍以上的算力。
3️⃣免费用!阿里通义大模型上新,超逼真音视频生成SOTA!
机器之心|阅读原文
阿里通义实验室推出了全新数字人视频生成大模型 OmniTalker,只需上传一段参考视频,不仅能学会视频中人物的表情和声音,还能模仿说话风格。相比传统的数字人生产流程,该方法能够有效降低制作成本,提高生成内容的真实感和互动体验,满足更广泛的应用需求。目前该项目已在魔搭社区、HuggingFace 开放体验入口,并提供了十多个模板,所有人可以直接免费使用。
受启发于 LLM 的上下文学习能力,以及多模态 DiT 在文生图中的优势,我们提出了如图所示的模型架构。该架构有三个核心部分:(1)三个嵌入模块来分别捕捉参考音视频的动态特征以及文本信息,(2)一个双流 DiT 模型用于音视频并行建模,以及 (3) 一个音视频特征融合模块来确保音视频特征的紧密同步。
阿里巴巴通义实验室的 HumanAIGC 团队专注于 2D 数字人和人物视频生成的研究,在相关领域内已发表了多篇顶会论文,比如单图驱动角色视频生成 Animate Anyone 以及 Animate Anyone2,单图语音驱动视频生成技术 EMO 以及 EMO2,实时数字人 ChatAnyone 等均出自该团队。
体验地址:https://huggingface.co/spaces/Mrwrichard/OmniTalker
对此,你怎么看?
支付宝/钉钉扫码加入支付宝开发者钉组织,可了解支付宝开放能力最新动态,订阅文档更新消息,和同城同行业交流业务,与支付宝产研沟通交流。