计算机视觉在机器人技术中的应用 —— 自动化革命

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”


作者:Nico Klingler

编译:ronghuaiyang

导读

我们最期待的计算机视觉应用之一是机器人技术领域。通过将计算机视觉、自然语言处理、机械学和物理学等学科相结合,我们有望见证与机器人互动方式的重大变革。

我们最期待的计算机视觉应用之一是机器人技术领域。通过将计算机视觉、自然语言处理、机械学和物理学等学科相结合,我们有望见证与机器人互动方式的重大变革。

在本文中,我们将涵盖以下主题:

  • 计算机视觉与机器人视觉与机器视觉的区别

  • 计算机视觉在机器人技术中的应用

  • 计算机视觉在机器人技术中面临的挑战

计算机视觉与机器人视觉与机器视觉

计算机视觉

计算机视觉是人工智能(AI)和机器学习的一个子领域,它增强了机器和系统从视觉数据中提取有意义信息的能力。在很多方面,计算机视觉力求模仿自主系统中人类视觉的复杂性。目标不仅仅是“看到”,而是要解释和理解系统所看到的内容。

如今的计算机视觉系统具备的能力直到最近还主要局限于科幻小说中。准确的图像处理和识别;识别物体、人物甚至是情绪现在相对简单。这些系统甚至能够通过定位和识别多个物体来理解场景构成和空间关系。计算机视觉系统可以实时处理数据,使得一些系统能够解析和响应视频流中的视觉数据甚至直播流。结合深度感知,这些工具能够在其视野内测量距离和体积。这使得它们能够在时间和空间中“理解”自己的位置。

机器人视觉

这特指计算机视觉在机器人中的应用。它涉及赋予机器人感知、理解和以有意义的方式与其环境互动的能力。通过将视觉数据转化为行动,计算机视觉使机器人能够自主导航、操纵物体并执行各种任务。

例如,灾难应对机器人配备了先进的视觉系统来导航危险环境。它们需要有能力解释复杂的场景、识别障碍物、识别安全路径,并迅速响应环境变化。

13020b9d52e44a6f40d368ffe5823cd4.jpeg

机器视觉

机器视觉更侧重于基于图像数据分析进行操作指导。这使得它在工业和制造业应用中备受青睐。如今,这通常涉及自动检测和过程控制。虽然机器人视觉强调与环境的互动和操控,而机器视觉则侧重于基于视觉输入做出决策。

例如,在质量控制中,机器视觉系统可以实时检测缺陷并对生产线上的物品进行分类。

简而言之,机器人视觉专注于提高执行任务的机器人的自主性。机器视觉则专注于以精度执行可重复的任务。然而,两者都使用计算机视觉的技术来支持其底层技术。

计算机视觉和机器人视觉之间的联系尤为紧密。将先进的计算机视觉技术整合到机器人中可能是下一代物理人工智能代理发展的下一步。

6b17c668fc30486420bd693750377802.jpeg

机器视觉用来做缺陷检测

计算机视觉在机器人技术中的应用

对视觉反馈的解释对于依赖其进行引导的机器人来说至关重要。视觉的力量是推动机器人在不同领域被采纳的关键因素之一。我们在机器人行业中已经有了许多例子,包括:

太空

配备计算机视觉系统的机器人在太空作业中扮演着越来越重要的角色。例如,NASA的火星探测车“毅力号”利用计算机视觉自主导航火星表面。这些系统分析地形以检测障碍物、分析地质特征并选择安全路径。

它们还使用这些工具收集数据和图像发送回地球。配备有计算机视觉的机器人将是太空探索的先驱者,在人类无法到达的地方发挥重要作用。

201eadd447419cf7e5bb35f9cc7a94f9.jpeg

NASA的火星“毅力号”探测车使用计算机视觉来在崎岖地形上规划安全路线
工业

具备视觉能力的工业机器人正在改变生产线和工厂。机器人可以识别部件、确定它们的位置,并准确放置。它们执行诸如组装和质量控制等任务。

例如,汽车制造商使用视觉引导的机器人来安装挡风玻璃和组件。这些机器人以高度精确的方式运行,提高了效率并降低了出错的风险。

bc6e889086557bb35abdfeda99d57c73.jpeg

机器人可以在制造应用中用于自动化物理任务
军事

具备计算机视觉能力的军用机器人利用这些能力执行侦察、监视和搜救任务。无人飞行器(UAV),即无人机,利用计算机视觉导航并识别目标或感兴趣的区域。它们利用这些能力在敌对或难以进入的地区执行复杂任务,同时最大限度地减少人员风险。例如,通用原子航空系统的MQ-9A“收割者”和法国的Aarok。

0b9fabcbd9b43acedf77ed884c7b3bf9.jpeg

无人机拍摄的空中图像用于检测地面的飞机

医疗

医疗领域的计算机视觉可以增强机器人协助甚至自主执行精确外科手术的能力。达芬奇手术系统利用计算机视觉提供手术部位的详细3D视图。这不仅帮助外科医生进行高度敏感的操作,还可以帮助减少侵入性。此外,这些机器人还可以实时分析医学图像,以在手术过程中引导手术器械。

1d2f17084f6c26699cd9b0819e503692.jpeg

计算机视觉应用于手术应用中的机器人
仓储与配送

在仓储和配送领域,企业一直在追求更高效的库存管理和订单履行。配备有计算机视觉的各种类型机器人可以识别货架上的物品、分类包裹并准备发货订单。亚马逊和Ocado等公司就在其处理大量库存的配送中心部署了这些自主机器人。

5e0a67999abb8932b4cb33e12f4af7bf.jpeg

亚马逊已经开始测试使用人形机器人来帮助完成订单
农业

农业领域的计算机视觉被应用于作物监测、收获和杂草控制等任务。这些系统可以识别成熟的作物、检测和识别植物疾病,并精准地针对杂草。即使在收获之后,这些系统也能帮助高效地按重量、颜色、大小或其他因素对作物进行分类。这项技术使得农业生产更加高效,并处于可持续实践的前沿,例如通过减少农药的使用。

6b57ad57a821306a741119a6263c883d.png

在农业行业中应用机器人可以改善许多手工和不安全的工作
环境监测与保护

环境监测与保护工作也越来越依赖于计算机视觉。空中和陆地上的机器人应用案例包括:追踪野生动物、监测森林健康状况以及检测非法活动,如偷猎。一个例子是RangerBot,这是一种水下车辆,它利用计算机视觉监测珊瑚礁的健康状况。它可以识别对珊瑚健康有害的入侵物种,并在复杂的水下地形中导航。

eba2d615957534745ff657737732ada3.jpeg

RangerBot利用计算机视觉监测海洋生态系统的健康状况

计算机视觉的挑战

莫拉维克悖论概括了设计具备类似人类能力的机器人的挑战。它表明有些任务对人类来说很难,但对计算机来说却很容易,反之亦然。在机器人视觉中,这意味着执行人类认为理所当然的基本感官和运动任务。

例如,识别障碍物并在拥挤的房间中导航对于蹒跚学步的孩子来说很简单,但对于机器人来说却极具挑战性。

将计算机视觉整合到机器人系统中面临着一系列独特的挑战。这些挑战不仅源自技术和计算需求,还源于现实世界应用的复杂性。此外,还有强烈的推动发展完全自主的能力以及与人类操作员合作的能力。

对于应用而言,能够实时响应环境因素是其实用性的关键。在研究人员能够克服这些基于性能的障碍之前,这可能会阻碍这些领域的采用。

1. 现实世界的变异性与复杂性

现实世界场景的变异性、动态性和复杂性构成了重大挑战。例如,光照条件或新物体的存在。复杂的背景、遮挡和光线不佳也会严重影响计算机视觉系统的性能。

机器人必须能够在各种环境中准确识别和交互多种物体。这要求高级算法能够从训练数据推广到新的、未见过的情景。

2. 上下文理解有限

当前的计算机视觉系统擅长识别和跟踪特定物体。然而,它们并不总是理解关于其环境的上下文信息。我们仍在追求更高层次的理解,包括语义识别、场景理解以及预测推理。这一领域仍然是持续研究和发展的重要焦点。

3. 数据和计算需求

为了使模型能够推广,需要大量的训练数据集,而这些数据集并不总是可用或容易收集。处理这些数据也需要大量的计算资源,尤其是对于深度学习模型。在保证高准确性和效率的同时实现实时处理尤其具有挑战性。这一点在这些系统的许多应用都是在资源受限的环境中尤为重要。

48510e7fd7ec81484b0f760fcd81dafc.jpeg

确保实时处理、对环境变化的鲁棒性以及在动态和非结构化环境中准确感知以实现有效决策可以使在机器人中应用计算机视觉变得具有挑战性
4. 整合与协调

将计算机视觉与其他机器人系统(如导航、操控和决策系统)整合起来需要无缝协调。为了准确解读视觉数据、做出决策并执行响应,这些系统必须完美协作。这些挑战既来源于硬件也来源于软件的整合。

5. 安全与伦理考量

随着机器人变得更加自主并融入日常生活,确保与人类的安全互动变得至关重要。计算机视觉系统遵循严格的安全部署措施以防止事故的发生。想想自动驾驶汽车和医疗机器人就知道了。伦理考量,包括隐私问题、算法偏见和公平竞争,也是确保负责任使用这项技术的障碍。

机器人计算机视觉模型的突破

大多数专家可能会说,我们离机器人计算机视觉的“ChatGPT时刻”还有几年的时间。然而,2023年已经出现了一些令人鼓舞的迹象,表明我们正朝着正确的方向前进。

将多模态大型语言模型(LLM)与机器人整合是引领这一领域的里程碑。它使机器人能够处理复杂的指令并与物理世界互动。研究机构和公司参与了许多引人注目的项目,包括NVIDIA的VIMA、PreAct和RvT、谷歌的PaLM-E以及DeepMind的RoboCat。伯克利大学、斯坦福大学和卡内基梅隆大学也在合作开展另一个有前景的项目,名为Octo。这些系统使机械臂能够作为能够进行复杂互动的物理输入/输出设备。

9db5b655da95fea84978376eba936baa.jpeg

NVIDIA的VIMA模型将基于语言的指令与视觉数据相结合,使机器人能够通过一次演示、概念接地以及遵循视觉约束的组合来执行复杂任务
高级推理与低级控制的桥梁

我们也在弥合高级推理与低级控制之间的认知差距方面取得了巨大进展。NVIDIA的Eureka和Google的Code as Policies使用自然语言处理(NLP)将人类指令转化为机器人代码来执行任务。

硬件的进步同样至关重要。特斯拉的Optimus和Figure的1X最新稳健模型展示了机器人平台多功能性的飞跃。这些发展在很大程度上得益于合成数据和模拟技术的进步,这对于训练机器人至关重要。

例如,NVIDIA Isaac能够以比实时快1000倍的速度模拟环境。它能够生成可扩展、逼真的数据,包括准确的标注,用于训练。

Open X-Embodiment (RT-X)数据集正致力于解决数据稀缺的问题,旨在成为机器人领域的ImageNet。尽管目前还不够多样化,但它是在创建丰富、细腻的数据集方面迈出的一大步,这些数据集对于训练复杂的模型至关重要。

此外,像MimicGen(NVIDIA)这样的模拟器放大了真实世界数据的价值。有些模拟器能够生成庞大的数据集,从而减少了对成本高昂的人类示范的依赖。

a49607d7eb2e106562a369f1cecebade.png

在NVIDIA的RT-1-X和RT-2-X模型中,机器人的动作是一个7维向量,由x、y、z坐标、滚动、俯仰、偏航以及夹爪开合或这些量的变化率组成

展望未来

随着技术的不断进步,我们可以期待更多利用计算机视觉复制人类视觉系统的有用机器人应用。借助边缘AI和传感器,我们期待看到更多关于我们如何与机器人合作的应用案例。

要了解更多关于计算机视觉的应用案例,请查阅我们的其他文章:

  • 计算机视觉在医疗保健领域的应用

  • 计算机视觉在餐饮行业的应用

  • 计算机视觉在能源领域的应用

0888b731262b8fec766263230e4ea5e6.png

—END—

英文原文:https://viso.ai/computer-vision/computer-vision-in-robotics/

f29e607a1d8e43b9ddb6719549728ec8.jpeg

请长按或扫描二维码关注本公众号

喜欢的话,请给我个在看吧

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值