2025年10月AI科技领域周报（10.20-10.26）：多模态技术突破具身智能开启机器人新纪元

原创于 2025-10-30 10:42:03 发布 · 556 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #机器人 #microsoft

AI科技周报专栏收录该内容

1 篇文章

订阅专栏

2025年10月AI科技领域周报（10.20-10.26）：多模态技术突破具身智能开启机器人新纪元

像素级视觉推理与触觉增强的世界模型，正重新定义机器人与物理世界交互的方式。

目录

2025年10月AI科技领域周报（10.20-10.26）：多模态技术突破具身智能开启机器人新纪元
一、本周热点回顾
1. DeepSeek开源OCR模型，重塑多模态信息处理范式
2. 中国团队开源WoW具身世界模型，机器人实现“想象预演”
3. 英伟达推出全模态理解模型OmniVinci，性能大幅领先

二、技术进展深度解析
（一）大模型与多模态技术
（二）AI芯片与算力基础设施
（三）具身智能与机器人技术
（四）生成式AI与内容创作
（五）AI安全与伦理治理

三、产业动态全景扫描
（一）全球产业战略布局
（二）行业应用深度渗透

四、行业生态与政策风向
（一）国际技术竞争态势
（二）产业投资动向

五、专业术语解释
六、资料引用声明
七、免责声明

本周（10月20日-10月26日），全球AI领域迎来多模态技术与具身智能的重大突破。

中国科研团队开源的DeepSeek-OCR模型以“上下文光学压缩”技术挑战了文本作为AI核心输入的传统范式；UniPixel作为首个统一像素级多模态大模型，在指代、分割与推理任务中展现卓越性能；而WoW具身世界模型则让机器人学会通过“想象预演”来指导真实世界中的动作执行，实现“知行合一”。

与此同时，英伟达发布的全模态理解模型OmniVinci在多项基准测试中超越现有顶尖模型，显示出多模态融合技术的巨大潜力。

一、本周热点回顾

1. DeepSeek开源OCR模型，重塑多模态信息处理范式

10月20日，DeepSeek团队开源的DeepSeek-OCR模型以“上下文光学压缩”为核心突破，重新定义了OCR（光学字符识别）的性能边界。

该模型能够从视觉token中解译出超过10倍数量的文本token，使得单张包含文档的图像可以用远少于等效文本token的量级来表征丰富的语义。

在OmniDocBench基准测试中，DeepSeek-OCR仅使用100个视觉token便超越了GOT-OCR2.0（每页256个token）。

技术突破：采用统一的端到端VLM架构，由编码器（DeepEncoder）和解码器（DeepSeek-3B-MoE）组成。编码器采用创新的“SAM-base+CLIP-large”串联结构，参数规模约3.8亿。

行业影响：前特斯拉AI总监、OpenAI创始团队成员Andrej Karpathy对其高度赞扬，认为它动摇了“文本作为AI核心输入”的传统认知。

2. 中国团队开源WoW具身世界模型，机器人实现“想象预演”

我国科研团队开源出名为WoW的具身世界模型，让机器人可以像人类一样，进化出更好的想象力与执行能力。

该模型使机器人能够在行动之前生成“想象出来”的预演画面，用来指导其与真实世界的交互，实现从想象预演到动作执行的“知行合一”能力。

核心创新：WoW具身世界模型研发团队首创性地构建了具身世界模型与视觉语言模型双模型协同联动的多模态世界模型体系。

具身世界模型负责物理推演与动态预测，视觉语言模型负责多模态理解、长程任务规划与逻辑自校正，两者共同形成“想象—验证—修正—再想象”的具身智能学习回路。

应用价值：可以适配人形、类人形、机械臂等不同本体机器人，覆盖家居、商超、工业、物流等多种场景，还能高精度模拟水洒在电脑上等极端情况。

3. 英伟达推出全模态理解模型OmniVinci，性能大幅领先

10月29日，美国英伟达研究团队发布全模态理解模型OmniVinci，该模型能够同时理解视觉、音频和文本，使机器能够像人类一样通过多种感官感知并理解复杂的世界。

性能突破：在关键的全模态理解基准测试中取得了惊人的成果，相较于现有顶尖模型高出19.05分。特别是，OmniVinci仅使用了1/6的训练数据，展现出卓越的数据效率和性能。

技术架构：OmniVinci结合了架构创新与大规模合成数据流水线。系统引入了三个关键组件：OmniAlignNet（将视觉和音频嵌入对齐到共享潜在空间）、Temporal Embedding Grouping（捕捉视频和音频信号相对变化）和Constrained Rotary Time Embedding（编码绝对时间信息以同步多模态输入）。

二、技术进展深度解析

（一）大模型与多模态技术

像素级多模态模型突破

香港理工大学和腾讯ARC Lab的研究团队提出了首个统一的像素级多模态大模型——UniPixel。只需一个模型，就能完成目标指代（Referring）、像素级分割（Segmentation）与区域推理（Reasoning）三大任务，兼具灵活性、精确性与可扩展性。

UniPixel引入了对象记忆机制与支持三类视觉提示（点、框、掩码）的统一视觉编码方式，实现了对用户提示的“感知—记忆—推理”全过程支持。

在ReVOS推理分割基准上，UniPixel-3B达到62.1 J&F，超过现有所有模型。在PixelQA任务上，UniPixel展现出了出色的多任务建模能力，其性能超越72B的传统模型。

全模态理解模型进展

英伟达的OmniVinci模型通过一个统一的全模态潜在空间，将不同感官的信息融合在一起，实现了跨模态的理解和推理。

研究团队还构建了一个新的数据合成引擎，生产超过24 million 单模态和多模态对话，旨在教导模型如何整合和推理不同模态。

这些结果表明“模态间相互增强”，当模型被训练同时处理视觉和声音时，感知和推理能力都得到改善。

（二）AI芯片与算力基础设施

算力租赁市场平稳发展

本周算力租赁价格保持平稳。具体来看，显卡配置为A100-40G中，腾讯云16核+96G价格为5.73元/时，阿里云12核+94GiB价格为31.58元/时。

显卡配置为A100-80G中，恒源云13核+128G价格为6.00元/时；显卡配置为A800-80G中，恒源云16+256G价格为7.50元/时。

液冷技术成为AI数据中心必选项

Vertiv发布的第三季度财报彰显了其在液冷领域的规模化交付能力与技术适配优势。

这一表现印证了产业共识——液冷技术已从AI数据中心的“可选项”升级为“必选项”，尤其在高算力的需求场景下，液冷已成为突破风冷技术物理极限的核心解决方案。

（三）具身智能与机器人技术

具身世界模型突破

WoW具身世界模型的核心创新在于让机器人具备预测和想象能力。WoW具身世界模型项目负责人池晓威解释说：“世界模型本质上就是AI模拟人类思考和决策的时候，去进行想象和预测的一个模型”。

项目算法负责人贾沛东进一步介绍：“我们采集了百万级别真实交互的具身智能数据，让世界模型能够在真实非常泛化的场景下真正去操作”。

触觉感知增强世界模型

在刚刚落幕的2025智慧机器人与系统国际会议（IROS）上，中国人工智能企业一目科技展示了其仿生视觉触觉传感器，并提出了**“触觉增强的世界模型”**。

该公司CEO李智强博士指出：“触觉捕捉了视觉与语言无法涵盖的隐秘维度——无论是表面的光滑粗糙、材料的柔软坚硬，还是物体的易碎尖锐，这些接触细节才是物理智慧真正扎根的关键”。

一目科技提出的 “视觉-触觉-语言-行动”新范式，直指当前具身智能发展的核心瓶颈：依赖接触交互的操作任务仍因高质量触觉数据的稀缺而进展缓慢。

（四）生成式AI与内容创作

多模态生成技术革新

DeepSeek-OCR的突破不仅在于其OCR能力，更在于其文本到视觉的压缩技术，为大语言模型和视觉语言模型的发展开辟了全新赛道。

这种变革背后，是对“人类光学认知”的回归。正如人类通过眼睛、通用光学计算系统认识世界，DeepSeek-OCR让AI以更接近人类的方式处理信息，被业内视为“光学认知时代的开端”。

（五）AI安全与伦理治理

开源模型授权争议

英伟达OmniVinci的发布引发了关于开源定义的争议。尽管论文中称OmniVinci为开源，但它是在英伟达的OneWay非商业许可下发布的，限制了商业使用。

数据研究人员Julià Agramunt在LinkedIn上批评道：“当然，英伟达投入了资金并构建了模型。但将‘仅限研究’的模型公开，同时为自己保留商业权利，这不是开源，而是数字封建主义”。

三、产业动态全景扫描

（一）全球产业战略布局

AI浏览器竞争白热化

10月22日，OpenAI正式发布了其首款AI浏览器产品ChatGPT Atlas，标志着该公司向传统浏览器市场发起了重要挑战。

该产品的核心设计理念是将人工智能深度整合进用户的日常网络浏览过程中，其功能主要围绕三大支柱展开：原生嵌入的ChatGPT助手，创新的“浏览器记忆”机制，以及最具突破性的“AI智能体”功能。

混合现实设备迎来新玩家

三星电子正式发布首款混合现实设备Galaxy XR，与谷歌、高通合作打造，旨在“释放多模态AI的全面潜力”。

该设备搭载其最新AndroidXR操作系统和Gemini人工智能以及4K micro-OLED显示屏，支持语音、视觉、手势等多模态交互。售价约1799美元，首发于美国和韩国。

人形机器人进展显著

10月20日，宇树科技在杭州发布其新款人形机器人Unitree H2。该机身高180厘米、重约70公斤，具备31个关节、仿生人脸及服装装饰，在演示中能够完成舞蹈、武术及行走等较为复杂且流畅动作。

相比前代更强调“拟人化”设计与灵活机动性。

（二）行业应用深度渗透

医疗AI获得巨额投资

2025年10月20日，OpenEvidence宣布成功完成由GV领投的2亿美元C轮融资。本轮融资完成后，公司估值从今年7月的35亿美元提升至60亿美元。

成立仅三年的OpenEvidence，其发展轨迹与医疗AI的整体繁荣态势相契合。在全球医疗系统面临医生短缺、职业倦怠，以及需处理不断增长的医学文献等挑战的大背景下，该平台为医生提供即时、基于循证的临床问题解答，从根本上变革了行医方式。

AI投资决策能力显现

美国实验室nof1.ai举办“六大AI模型实盘厮杀”，中国模型Qwen与DeepSeek以37%和24%收益率领跑全球对手。

这标志着人工智能将从文本生成的辅助功能逐步迈入到决策智能，赋能量化投资、资产配置等智能商业化层面。

仓库机器人整合多个环节

亚马逊推出“三合一”仓库机器人并投入测试，整合了拣选、分类和整合包裹等多个物流环节。

摩根士丹利分析师估计，自动化仓库的推广结合成本降低，到2027年可能为亚马逊节省高达40亿美元。

四、行业生态与政策风向

（一）国际技术竞争态势

中美AI竞争持续

中美地缘技术竞争持续，美国对华半导体出口限制持续，中国通过AI创新（如DeepSeek模型）减少依赖。

同时，NATO无人机演习突出AI在军事中的整合。

中国AI技术独立取得进展

中国科学院发布SpikingBrain 1.0：全球首款脑启发大型语言模型，模仿人类神经元选择性激活，仅处理附近词和最近上下文，能量消耗降低25-100倍，速度提升高达100倍。

该模型使用中国国产MetaX芯片，仅需主流模型2%的训练数据，却保持竞争性能。

（二）产业投资动向

AI应用融资活跃

10月23日，AI应用公司LiblibAI正式宣布完成1.3亿美元B轮融资，该笔融资由红杉中国、CMC资本及一战略投资方联合领投。

该笔融资是今年国内AI应用赛道最大单笔融资，超过了Manus在今年4月完成的7500万美元融资额度。

巨头AI投资布局

谷歌与Anthropic达成数百亿美元合作，将部署多达100万个谷歌的TPU芯片以训练旗下AI大模型Claude。

这批TPU芯片将专门用于加速机器学习工作负载，计划于2026年部署，将带来超过1吉瓦的算力。

五、专业术语解释

术语 --解释
上下文光学压缩–DeepSeek-OCR模型的核心技术，能够从视觉token中解译出超过10倍数量的文本token，实现高效的多模态信息压缩。
具身世界模型–让机器人能够通过“想象预演”来指导真实世界中的动作执行的模型，模拟人类思考和决策时的想象和预测过程。
像素级多模态推理–UniPixel模型的核心能力，指能够在像素级别进行视觉理解、分割和推理的技术，实现指代、分割与推理三大任务的统一处理。
全模态理解–英伟达OmniVinci模型的能力，指能够同时理解视觉、音频和文本等多种模态信息，实现跨模态的统一感知与推理。
对象记忆机制–UniPixel模型的关键创新，通过可动态更新的哈希结构存储和管理用户指定的目标区域，支持多轮对话中的上下文可控推理。

六、资料引用声明

华鑫计算机行业周报《DeepSeek团队开源DeepSeek-OCR模型，OpenAI推出Atlas》
量子位《多模态大模型首次实现像素级推理，3B参数超越72B传统模型》
央视网《“WoW”具身世界模型来了！机器人实现从想象预演到动作执行“知行合一”》
东吴证券《策略周评：十五五聚焦科技，AI进入交互发展期》
全球技术地图《美国英伟达推出全模态理解模型OmniVinci》
人民网《具身世界模型開源讓機器人學會“預演”未來》
LongPort《过去 24 小时 AI 和技术发展总结》
InfoQ《NVIDIA Introduces OmniVinci, a Research-Only LLM for Cross-Modal Understanding》
中国网《觸覺增強世界模型引關注，一目科技IROS首秀定義機器人感知新維度》
AI周报《中国大模型实力圈粉火到硅谷；鸿蒙披露AI最新进展》

七、免责声明

本文信息来源于公开渠道，可能存在信息滞后或不完全准确的情况。技术参数与性能指标基于企业公开资料整理，实际表现可能因应用场景不同存在差异。企业合作与商用计划可能随市场环境变化而调整，不构成投资决策依据。部分技术描述进行了通俗化处理，专业读者请参考原始技术文档。本文不代表任何机构立场，仅供行业研究与交流使用。数据如无特殊说明，均来源于企业官网或第三方研究报告。本报告由AI辅助生成，核心观点经人工审核但仍可能存在疏漏。

文档最后更新时间：2025年10月30日