机器人技术革命前夜，我们走到哪一步了？-CSDN博客

（示意图片，由「量子号」公众号作者使用人工智能生成。）

机器人大概是最早出现在人类对未来科技的想象中的事物，从我们的小学课本、课外科普读物，到科幻小说和影视作品等等，都可以找到机器人的身影。比如 1868 年出版的爱德华·S·埃利斯（Edward S. Ellis）的科幻小说《大草原上的蒸汽人》（The Steam Man of the Prairies）中的主人公就是一个蒸汽机驱动的人形机器人，它是目前所知的最早出现在人类文艺作品中的人形机器人。1927 年的科幻电影《大都会》（Metropolis）中也出现了机器人，它也是目前所知最早出现在电影中的机器人。

从想象到现实有多远的距离呢？从“大草原上的蒸汽人”到今天，156 年过去了，机器人技术走到哪一步了？最近，《麻省理工科技评论》以“机器人技术即将迎来自己的 ChatGPT 时刻？”为题，以头版长篇深度报道了机器人技术的进展。

本文全文 7800 余字，分为以下五个小节：

1. 拐点已出现

2. 还缺什么

3. 当机器人遇见人工智能

4. 越多越好

5. 婴儿学步

在这个机器人技术革命的前夜，让我们屏气凝神，迎接一场新的技术革命的到来。

（图源：PETER ADAMS）

研究人员正在使用生成式人工智能和其他技术来教会机器人新技能，包括它们可以在家中执行的任务。

1. 拐点已出现

无声。僵硬。笨拙。

亨利（Henry）和简·埃文斯（Jane Evans）已经习惯了尴尬的房客。十多年来，这对住在加利福尼亚州洛斯阿尔托斯山的夫妇在家中安置了大量机器人。

2002 年，40 岁的亨利突发严重中风，导致他四肢瘫痪，无法说话。从那时起，他学会了如何通过在字母板上移动眼睛进行交流，但他非常依赖护理人员和他的妻子简。

2010 年，亨利在 CNN 上看到查理·坎普（Charlie Kemp）的节目，这让他看到了另一种生活的曙光。坎普是佐治亚理工学院的机器人学教授，他在电视上谈到了 “柳树车库”（Willow Garage）公司开发的机器人 PR2。这是一台巨大的带轮子的双臂机器，看起来就像一个粗制滥造的金属管家。坎普演示了机器人的工作原理，并谈到了他关于医疗保健机器人如何帮助人们的研究。他展示了 PR2 机器人如何将一些药品递给电视节目主持人。

“突然，亨利转向我说，‘为什么那个机器人不能成为我身体的延伸？’我说，‘为什么不呢？’”简说。

不这样做是有充分理由的。尽管工程师在让机器人在实验室和工厂等严格控制的环境中工作方面取得了巨大进展，但事实证明，家用机器人的设计却很困难。在真实而杂乱的世界里，家具和平面图差异很大；孩子和宠物可能会妨碍机器人工作；需要折叠的衣服形状、颜色和尺寸也各不相同。即使是最先进的机器人原型，也无法管理这些不可预知的环境和变化的条件。

这种情况似乎终于要改变了，这在很大程度上要归功于人工智能。几十年来，机器人专家们或多或少都在专注于通过目的驱动软件来控制机器人的“身体”——手臂、腿、杠杆、轮子等。但新一代科学家和发明家认为，人工智能这一以往缺失的要素可以让机器人比以往任何时候都更快地学习新技能、适应新环境。也许，这种新方法最终能让机器人走出工厂，进入我们的家庭。

不过，进展不会一蹴而就，埃文斯夫妇在多年使用各种机器人原型的过程中深有体会。

PR2 是他们引进的第一个机器人，它为亨利开启了全新的技能。它可以拿着剃须刀，亨利可以对着它移动自己的脸，这让他十年来第一次可以自己刮胡子和挠痒痒。但是，这个机器人重达 200 公斤左右，价值 40 万美元（约 290 万元人民币），很难随身携带。“它可以轻易摧毁你房子里的一堵墙，我不是它的忠实粉丝，”简说。

最近，埃文斯夫妇正在测试一款名为“弹力”（Stretch）的小型机器人，这是坎普通过他的初创公司“你好机器人”（Hello Robot）开发的。第一代产品在疫情期间推出，价格更为合理，约为 1.8 万美元（约 13 万元人民币）。

Stretch 重约 23 公斤。它有一个小型移动底座、一根挂着摄像头的棍子，以及一个可调节的手臂，手臂末端有一个带吸盘的夹具。它可以通过控制台上的控制器进行控制。亨利使用笔记本电脑控制 Stretch，电脑上有一个工具，可以跟踪他的头部运动来移动光标。他能够移动拇指和食指来点击电脑鼠标。去年夏天，Stretch 和这对夫妇在一起生活了一个多月，亨利说这给了他全新的自主权。“它很实用，我可以每天都使用它，”他说。

亨利·埃文斯使用 Stretch 机器人帮他梳头、吃饭，甚至和他的孙女一起玩耍。（图源：PETER ADAMS）

通过笔记本电脑，他可以让机器人给他梳头，还可以让机器人拿水果串给他吃。这也开启了亨利与孙女泰迪的关系。之前，他们几乎没什么互动。“她在告别时根本不拥抱他。没有那样的事，”简说。现在，亨利和泰迪使用 Stretch 玩接力赛、保龄球和磁力捕鱼。

Stretch 并没有太多智能功能：它预装了一些软件，比如亨利用来控制它的网络界面，以及人工智能导航等其他功能。Stretch 的主要好处是，人们可以插入自己的人工智能模型并用它们来做实验。但它也让人们看到了一个拥有实用家用机器人的世界。自 20 世纪 50 年代机器人研究领域诞生以来，机器人就一直是这个领域的梦想，它可以完成人类在家中做的许多事情，例如叠衣服、做饭和打扫卫生等任务。很长一段时间以来，人们只是认为：“机器人技术领域充满了梦想家，”坎普说。

但加州大学伯克利分校机器人学教授肯·戈德伯格（Ken Goldberg）表示，该领域正处于拐点。他说，之前制造实用的家庭机器人的努力显然未能满足流行文化所设定的期望——想想《杰森一家》（The Jetsons）中的机器人女仆。现在情况大不相同了。得益于像 Stretch 这样的廉价硬件，再加上收集和共享数据的努力以及生成式人工智能的进步，机器人比以往任何时候都更有能力、能更快地提供帮助。“我们正处于一个非常接近获得真正有用的能力的阶段，”戈德伯格说。

叠衣服、煮虾、擦拭表面、卸下购物篮——今天的人工智能机器人正在学习完成对它们的前辈来说极其困难的任务。

2. 还缺什么

机器人专家们有一个众所周知的观察：对人类来说困难的事情对机器来说很容易，对人类来说容易的事情对机器来说很难。这被称为莫拉维克悖论（Moravec’s paradox），由卡内基梅隆大学机器人研究所的机器人专家汉斯·莫拉维克（Hans Moravec）在 20 世纪 80 年代首次提出。机器人可以毫无问题地下棋或连续数小时保持物体不动。而系鞋带、接球或交谈则是另一回事。

戈德伯格说，这有三个原因。首先，机器人缺乏精确的控制和协调能力。其次，他们对周围世界的了解有限，因为它们只能依靠摄像头和传感器来感知世界。第三，他们缺乏与生俱来的实用物理学意识。

“拿起一把锤子，它可能会从你的抓手中掉下来，除非你抓住它较重的部分。但如果你只看它，你就不会知道这一点，除非你知道锤子是如何工作的，”戈德伯格说。

除了这些基本的考虑因素外，还有许多其他技术方面的东西需要恰到好处，从电机到摄像头再到 Wi-Fi 连接，而且硬件可能非常昂贵。

从机械原理上讲，我们早就能够完成相当复杂的工作了。在一段 1957 年的视频中，两只大型机械臂灵巧得足以夹起一根香烟，将其放入打字机前的女士嘴里，然后重新给她涂口红。但该机器人的智能和空间感来自于操作它的人。

在一段 1957 年的视频中，一名男子操作着两个大型机械臂，并使用该机器为一名女子涂上口红。从那时起，机器人已经取得了长足的进步。（来自Youtube 视频《轻松新闻——原子机器人是个好帮手》（LIGHTER SIDE OF THE NEWS --ATOMIC ROBOT A HANDY GUY，1957））

“缺少的部分是：我们如何让软件自动完成这些事情？”卡内基梅隆大学计算机科学助理教授迪帕克·帕塔克（Deepak Pathak）说道。

传统上，训练机器人的研究人员通过详细规划机器人所做的一切来解决这个问题。机器人巨头波士顿动力公司在开发其跳舞和跑酷类人机器人“阿特拉斯”（Atlas）时就使用了这种方法。摄像头和计算机视觉用于识别物体和场景。然后，研究人员利用这些数据建立模型，可以极其精确地预测机器人以某种方式移动时会发生什么。利用这些模型，机器人专家通过编写一份非常具体的动作清单来规划机器的动作。然后，工程师们会在实验室中多次测试这些动作，并将其调整到完美状态。

这种方法有其局限性。这样训练出来的机器人都是经过严格编排的，只能在一个特定的环境中工作。把它们带出实验室，带到一个陌生的地方，它们很可能会翻倒。

帕塔克说，与计算机视觉等其他领域相比，机器人技术一直处于黑暗时代。但这种情况可能不会持续太久，因为该领域正在经历一场巨大的变革。他说，由于人工智能的蓬勃发展，现在的重点已经从身体灵活性的壮举转向以神经网络形式构建“通用机器人大脑”。正如人类大脑具有适应性并且可以控制人体的不同方面一样，这些网络也可以适应在不同的机器人和不同的场景中工作。这项工作的早期迹象表明，结果很有希望。

3. 当机器人遇见人工智能

长期以来，机器人研究是一个无情的领域，进展缓慢。帕塔克在卡内基梅隆大学的机器人研究所工作，他说，“曾经有一种说法，如果你涉及了机器人，你的博士学位就会增加一年。”而现在，他说，学生们可以接触到许多机器人，并在几周内看到成果。

这些新型机器人的独特之处在于它们的软件。机器人专家不再采用传统的艰苦规划和培训，而是开始使用深度学习和神经网络来创建系统，这些系统可以随时随地从环境中学习，并相应地调整自己的行为。与此同时，新的、更便宜的硬件，比如现成的组件和像 Stretch 这样的机器人，使得这种实验更容易进行。

一般来说，研究人员使用人工智能训练机器人有两种常用方法。帕塔克一直在使用强化学习，这是一种人工智能技术，可以让系统通过反复试验进行改进，让机器人在新环境中适应自己的动作。波士顿动力公司也开始在其名为“斑点”（Spot）的机器“狗”中使用这项技术。

“有腿机器人的极限跑酷”。卡内基梅隆大学的迪帕克·帕塔克（Deepak Pathak）团队使用了一种称为强化学习的人工智能技术，创建了一只只需少量预编程就能进行极限跑酷的机器狗。（XUXIN CHENG 等）

2022 年，帕塔克的团队使用这种方法制造出了四条腿的机器“狗”，它们能在台阶上攀爬，并在复杂的地形中穿梭。这些机器人首先在模拟器中接受一般的移动训练。然后将它们放到现实世界中，用一个内置摄像头和计算机视觉软件来引导它们。其他类似的机器人依赖于严格规定的内部世界地图，无法在地图之外进行导航。

帕塔克说，该团队的方法受到人类导航的启发。人类通过眼睛接收周围世界的信息，这有助于他们本能地将一只脚放在另一只脚前面，以适当的方式四处走动。人类走路时通常不会低头看着脚下的地面，而是向前几步，看到他们想去的地方。帕塔克的团队训练其机器人采取类似的行走方式：每个机器人都使用摄像头观察前方。这样，机器人就能长时间记住前方的事物，从而引导自己的腿部位置。机器人无需内部地图即可实时了解世界，并相应地调整自己的行为。当时，专家们告诉《麻省理工科技评论》，这项技术是“机器人学习和自主性方面的突破”，可以让研究人员制造出能够在野外部署的有腿机器人。

此后，帕塔克的机器狗不断升级。该团队的最新算法可以让四足机器人进行极限跑酷。在模拟训练中，机器人再次被训练成以常规方式四处走动。但通过强化学习，它又能在行进中自学新技能，比如跳远、用前肢行走，以及爬上两倍于它身高的高箱。这些行为并不是研究人员设计的。相反，机器人通过反复试验以及前置摄像头的视觉输入来学习。“三年前我还不相信这是可能的，”帕塔克说。

另一种流行的技术被称为模仿学习，模型通过模仿人类远程操作机器人的动作或使用虚拟现实头盔收集机器人的数据来学习执行任务。这种技术几十年来曾流行过，但最近在执行操作任务的机器人中越来越流行，丰田研究院机器人研究副总裁、麻省理工学院教授拉斯·泰德雷克（Russ Tedrake）表示。

通过将这项技术与生成式人工智能相结合，丰田研究院、哥伦比亚大学和麻省理工学院的研究人员已经能够快速教会机器人完成许多新任务。他们相信他们已经找到了一种方法，可以将推动生成式人工智能的技术从文本、图像和视频领域扩展到机器人动作领域。

他们的想法是从人类开始，由人类手动控制机器人演示诸如打蛋或拿起盘子等行为。然后使用一种称为扩散策略的技术，机器人就能够使用输入的数据来学习技能。研究人员已经教会了机器人 200 多种技能，例如削蔬菜皮和倒液体，并表示他们正努力在今年年底前教会 1000 种技能。

许多其他公司也利用了生成式人工智能。“协变式”（Covariant）是一家从 OpenAI 现已关闭的机器人研究部门分离出来的机器人初创公司，它构建了一个名为 RFM-1 的多模态模型。它可以接受文本、图像、视频、机器人指令或测量形式的提示。生成式人工智能使机器人能够理解指令，并生成与这些任务相关的图像或视频。

泰德雷克说，丰田研究院团队希望有朝一日能建立 “大型行为模型”，类似于大型语言模型。“很多人认为，行为克隆将使我们进入机器人技术的 ChatGPT 时刻，”他说。

在一次类似的演示中，今年早些时候，斯坦福大学的一个团队成功地使用了一个价格相对便宜（售价 3.2 万美元，约 23 万元人民币）且现成的机器人来完成复杂的操作任务，比如煮虾和清洁污渍。通过人工智能，它很快就学会了这些新技能。

该机器人被称为“移动阿罗哈”（Mobile ALOHA，“低成本开源硬件远程操作系统”的英文松散缩写），仅通过 20 次人类示范和其他任务（例如撕下纸巾或胶带）的数据，就学会了煮虾。斯坦福大学的研究人员发现，人工智能可以帮助机器人获得可转移的技能：在一项任务的训练可以提高其在其他任务上的表现。

虽然当前一代的生成式人工智能是适用于图像和语言的，但丰田研究院、哥伦比亚大学和麻省理工学院的研究人员认为，该方法可以扩展到机器人动作领域。（图源：TOYOTA RESEARCH INSTITUTE）

这一切都为机器人在家庭中的应用奠定了基础。人类的需求会随着时间的推移而改变，因此教会机器人可靠地完成各种任务非常重要，因为这将帮助它们适应我们。这也是商业化的关键——第一代家用机器人的价格不菲，机器人需要具备足够有用的技能，普通消费者才会愿意投资。

斯坦福大学计算机科学和电气工程助理教授、Mobile ALOHA 项目顾问切尔西·芬恩（Chelsea Finn）表示，长期以来，机器人界的很多人都对这类方法持怀疑态度。芬恩说，近十年前，基于学习的方法在机器人会议上还很少见，在机器人界也受到轻视。“（自然语言处理）技术的蓬勃发展让更多人相信，这种方法确实非常强大，”她说。

然而，也有一个问题。为了模仿新行为，人工智能模型需要大量的数据。

4. 越多越好

聊天机器人可以利用从互联网上收集到的数十亿个数据点进行训练，而机器人则不同，它们需要专门为机器人创建的数据。纽约大学计算机科学助理教授勒雷尔·平托（Lerrel Pinto）表示，机器人需要给它实际演示如何打开洗衣机和冰箱、如何拿起餐具或如何折叠衣物。现在数据非常稀缺，人类需要很长时间才能收集到。

“将机器人带回家”。（Nur Muhammad (MAHI) SHAFIULLAH 等人）

一些研究人员正在尝试使用现有的人类做事视频来训练机器人，希望机器能够复制这些动作，而无需进行物理演示。

平托的实验室还开发了一种简便、廉价的数据收集方法，将机器人的动作与所需的动作联系起来。研究人员使用了一根类似于捡垃圾用的伸缩抓杆，并在上面安装了一部 iPhone。人类志愿者可以使用该系统拍摄自己做家务的过程，模仿机器人从机械臂末端看到的画面。通过使用 Stretch 机械臂的替代品和名为 DOBB-E 的开源系统，平托的团队只用了 20 分钟的 iPhone 数据，就能让 Stretch 机器人学会用杯子倒水和打开浴帘等任务。

但对于更复杂的任务，机器人需要更多的数据和更多的演示。

平托表示，DOBB-E 很难达到所需的规模，因为你基本上需要说服地球上的每一个人购买伸缩抓取系统、收集数据并上传到互联网上。

谷歌 DeepMind 发起的一项名为“开放X-实验合作”（Open X-Embodiment Collaboration）的新计划旨在改变这一现状。去年，该公司与 34 个研究实验室和约 150 名研究人员合作，收集 22 个不同机器人的数据，其中包括 Hello Robot 的 Stretch。由此产生的数据集于 2023 年 10 月发布，其中包括机器人展示的 527 项技能，如拾取、推动和移动。

参与该项目的加州大学伯克利分校计算机科学家谢尔盖·莱文（Sergey Levine）表示，目标是通过收集世界各地实验室的数据来创建“机器人互联网”。这将使研究人员能够获得更大、更可扩展、更多样化的数据集。催生了当今生成式人工智能的深度学习革命，始于 2012 年 ImageNet（一个庞大的在线图像数据集）的兴起。“开放X-实验合作”计划是机器人界为机器人数据所做的一次类似尝试。

早期迹象表明，更多数据正在催生更智能的机器人。研究人员构建了两个版本的机器人模型，称为 RT-X，可以在各个实验室的计算机上本地运行，也可以通过网络访问。更大的、可通过网络访问的模型是用互联网数据进行预训练的，以便从大型语言和图像模型中开发出“视觉常识”或对世界的基本理解。

当研究人员在许多不同的机器人上运行 RT-X 模型时，他们发现机器人学习技能的成功率比各个实验室开发的系统高出 50%。

“我认为没有人预见到这一点。突然之间，有一条途径可以基本上利用所有其他数据源来实现机器人技术中非常智能的行为，”谷歌 DeepMind 机器人技术主管文森特·范霍克（Vincent Vanhoucke）说道。

他说，许多机器人专家认为，能够分析图像和语言数据的大型视觉语言模型可能会为机器人提供有关周围世界如何运作的重要提示。它们提供了关于世界的语义线索，可以帮助机器人通过解读图像进行推理、推断和学习。为了测试这一点，研究人员使用了一个接受过较大模型训练的机器人，并要求它指出泰勒·斯威夫特的照片。研究人员并没有向机器人展示斯威夫特的照片，但它仍然能够识别出这位流行歌星，因为即使数据集中没有她的照片，它也能在网络范围内了解她是谁。

RT-2 是一种最新的机器人控制模型，它是根据在线文本和图像以及与现实世界的交互进行训练的。（图源：KELSEY MCCLELLAN）

范霍克表示，谷歌 DeepMind 正在越来越多地使用类似于机器翻译的技术，将英语翻译成机器人语言。去年夏天，谷歌推出了一种名为 RT-2 的视觉-语言-动作模型。该模型通过在线文本和图像以及自身在现实世界中的互动，获得对世界的总体理解。它将这些数据转化为机器人动作。他补充说，每个机器人将英语转化为动作的方式略有不同。

“我们越来越觉得，机器人本质上是一个会说机器人语的聊天机器人，”范霍克说。

5. 婴儿学步

尽管发展速度很快，但机器人在进入现实世界之前仍面临许多挑战。对于普通消费者来说，它们仍然太笨拙，无法证明花费数万美元购买它们是合理的。机器人还缺乏能够让它们同时处理多项任务的常识。戈德伯格说，它们需要从简单地拿起东西放在某个地方转变为把东西放在一起，例如，把一副扑克牌或棋盘游戏放回盒子里，然后再放到游戏柜里。

但平托表示，从将人工智能融入机器人的早期成果来看，机器人专家们并没有浪费时间。

“我相当有信心，我们会看到某种通用家用机器人的雏形。现在，普通大众能使用它吗？我不这么认为。但在原始智能方面，我们现在已经看到了迹象，” 他说。

制造下一代机器人可能不仅可以帮助人类完成日常琐事，也可以帮助像亨利·埃文斯这样的人过上更独立的生活。对于像平托这样的研究人员来说，眼前还有一个更大的目标。

他说，家用机器人技术为人类水平的机器智能提供了一个最佳基准。他补充说，人类能够在家庭环境中进行智能操作这一事实意味着，我们知道这是一个可以达到的智能水平。

“这是我们有可能解决的问题。我们只是不知道如何解决这个问题，”他说。