1️⃣7B模型搞定AI视频通话,阿里最新开源炸场,看听说写全模态打通,开发者企业免费商用
量子位|阅读原文
阿里发布并开源首个端到端全模态大模型——通义千问Qwen2.5-Omni-7B,来了。仅靠一个一体式模型,就能搞定文本、音频、图像、视频全模态,并实时生成文本和自然语音。堪称7B模型的全能冠军。你的iPhone搭载的很可能就是它!现在打开Qwen Chat,就能直接和它实时进行视频或语音交互。
在多模态任务OmniBench评测中,Qwen2.5-Omni表现刷新记录拿下新SOTA,远超谷歌Gemini-1.5-Pro等同类模型。在单模态的语音识别、翻译、音频理解、图像推理、视频理解、语音生成任务中,Qwen2.5-Omni的全维度表现也都优于类似大小的单模态模型以及闭源模型。在seed-tts-eval语音生成基准中,Qwen2.5-Omni展现出与人类水平相当的语音合成能力。
模型非常轻量,手机等终端都可轻松部署运行,且开源用的是宽松的Apache2.0协议,开发者、企业现在都可免费在魔搭社区或Hugging Face下载商用。Qwen2.5-Omni-7B一开源,网友直呼这才是真正的OpenAI(doge)。
网友纷纷表示可以直接拿来装到智能眼镜上了:这可能是智能眼镜的完美模型。7B模型的新纪录!目前,在Qwen Chat上即可体验该模型支持的AI语音和视频通话功能。
感兴趣的友友不如一起来上手试试吧~Qwen Chat:Qwen Chat
2️⃣三年狂飙!「AIGC第一股」纯软件营收产品交付破2.2亿,暴增88.5%跑通全球
新智元|阅读原文
出门问问2024年度业绩报告公布!
今年,集团纯软件产品的AIGC营收,超过了2.2亿元,比起2023年同比增长了88.5%。这样的营收增长比,完全来自纯软件、产品交付(而非传统项目交付)与国际化的模式,让集团成为了名副其实的「AIGC第一股」。
此前,出门问问于2024年4月24日在港交所上市时,就已经完成了红杉资本、真格基金、谷歌、SIG、歌尔声学等机构的多轮融资。这种摆脱繁琐定制、聚焦标准化产品的转型,不仅让出门问问实现了高毛利的商业飞跃,更以惊艳的增长数据,诠释了GenAI在全球市场的无限可能。
近年起,出门问问不再增加传统的AI项目制收入,比如汽车附属公司的业务,而是全面投身纯软件的AIGC产品化业务!从数字上来看,这一步棋无疑是下对了。
在技术研发上,他们持续领跑行业,在AI智能体、大模型和数字人等领域都达到了国际领先水平。在AIGC产品阵容上,他们已经完成了全面布局。
目前,他们打造的AIGC产品矩阵,覆盖了多个场景:
- 魔音工坊(海外版DupDub):AI配音解决方案,为创作者提供高效音视频内容生成工具
- 奇妙元(海外版LivGen):数字人平台,助力企业打造虚拟形象
- 奇妙问:企业AI交互数字员工生成平台
- 元创岛:AI视频生成平台,赋能创意表达
3️⃣造手机的vivo,进军机器人了
机器之心|阅读原文
刚过去不久的「AI 超级碗」英伟达 GTC 大会上,黄仁勋把「物理 AI」放在了 AI 发展的最高点上,引发了人们的又一轮讨论。
本周的博鳌亚洲论坛 2025 年年会现场,vivo 宣布成立「vivo 机器人 Lab」 ,正式进军机器人行业。
vivo 希望依托自身在 AI 大模型与影像领域的积累,叠加自研混合现实头显积累的实时空间计算能力,着重研究孵化机器人的「大脑」和「眼睛」,让机器人可以「看得懂场景,听得懂需求,给得了回应」。
目前正在博鳌论坛现场展示的「vivo 混合现实头显」 就是 vivo 机器视觉能力的一个阶段性成果,在下个月即将发布的 X200 Ultra 上,也会集成 vivo 在影像领域最新技术突破。vivo 为自身制定的目标是聚焦消费级市场,打造面向个人和家庭场景的机器人产品,让技术走出实验室,走进用户的真实生活,回归场景,解决痛点。
vivo 执行副总裁胡柏山表示:「机器人是手机行业的未来,将成为联接物理世界和数字世界的桥梁。不久前,我们成立了机器人 Lab,布局机器人赛道。在新的发展阶段,为联接物理世界与数字世界,vivo 致力于创造极致的机器人产品。」
对此,你怎么看?
支付宝/钉钉扫码加入支付宝开发者钉组织,可了解支付宝开放能力最新动态,订阅文档更新消息,和同城同行业交流业务,与支付宝产研沟通交流。