支付宝开放平台-开发者社区——AI 日报「4 月 17 日」

1️⃣装满智能体AI的手机,正在呼唤一个“Type-C时刻”

量子位|阅读原文

当手机中装满智能体,下一代AI手机的雏形正在显现。

天玑开发者大会上,手机芯片巨头联发科提出了全新的AGENTIC AI UX雏形。在联发科的畅想中,AI助手不再是一个单纯的执行者,而是变成了一个能够协作,甚至“懂得拒绝”的伙伴。一同发布的,还有全新升级的旗舰5G智能体AI芯片天玑9400+,AI能力再次升级。相比前半代的“端侧AI最强芯”天玑9400,9400+的苏黎世AI能力跑分,又提升了25%。并且支持在端侧运行推理模型,准确率已经超过了o1-mini。

联发科认为,端侧AI向智能体进化,本质是让机器的推理能力无限趋近人类直觉,而推理能力正是其中的关键。既需要芯片提供澎湃算力基础,也依赖开发工具降低技术落地门槛。所以联发科选择了从软硬件同时入手,让智能体化AI成为融入日常体验的实用工具。

2️⃣OpenAI震撼发布o3/o4-mini,直逼视觉推理巅峰!首用图像思考,十倍算力爆表

新智元|阅读原文

刚刚,OpenAI联创Greg Brockman和首席研究官Mark Chen带队,开启了20分钟线上直播。这次不仅有o3,还有下一代推理模型o4-mini。它们首次实现了「用图像思考」,堪称视觉推理的巅峰之作。

如同AI智能体,两款模型在不到1分钟内,自主判断并组合运用ChatGPT内置工具,生成了详尽周全的答案。其中包括,搜索网页、用Python分析上传的文件及数据、对视觉输入进行深度推理,乃至生成图像。

在Codeforces、SWE-bench、MMMU等基准测试中,o3刷新SOTA,不论是在编程、数学、科学,还是在视觉感知领域都树立了新标杆。尤其是,对于图像、图表、图形分析,o3表现尤为突出,能够深入挖掘视觉输入的细节。用奥特曼的话来说,「接近或达到天才水平」。

不过,这个智力的代价是,需要投入o1十倍以上的算力。

3️⃣免费用!阿里通义大模型上新,超逼真音视频生成SOTA!

机器之心|阅读原文

阿里通义实验室推出了全新数字人视频生成大模型 OmniTalker,只需上传一段参考视频,不仅能学会视频中人物的表情和声音,还能模仿说话风格。相比传统的数字人生产流程,该方法能够有效降低制作成本,提高生成内容的真实感和互动体验,满足更广泛的应用需求。目前该项目已在魔搭社区、HuggingFace 开放体验入口,并提供了十多个模板,所有人可以直接免费使用。

受启发于 LLM 的上下文学习能力,以及多模态 DiT 在文生图中的优势,我们提出了如图所示的模型架构。该架构有三个核心部分:(1)三个嵌入模块来分别捕捉参考音视频的动态特征以及文本信息,(2)一个双流 DiT 模型用于音视频并行建模,以及 (3) 一个音视频特征融合模块来确保音视频特征的紧密同步。

阿里巴巴通义实验室的 HumanAIGC 团队专注于 2D 数字人和人物视频生成的研究,在相关领域内已发表了多篇顶会论文,比如单图驱动角色视频生成 Animate Anyone 以及 Animate Anyone2,单图语音驱动视频生成技术 EMO 以及 EMO2,实时数字人 ChatAnyone 等均出自该团队。

体验地址:https://huggingface.co/spaces/Mrwrichard/OmniTalker

对此,你怎么看?

详情查看参与互动赢蚂蚁周边


支付宝开放平台-开发者社区

 「AGI 之路」 内容库

欢迎你的投稿!戳我进群


支付宝/钉钉扫码加入支付宝开发者钉组织,可了解支付宝开放能力最新动态,订阅文档更新消息,和同城同行业交流业务,与支付宝产研沟通交流。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值