AR和VR中的计算机视觉

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”


作者:Nico Klingler

编译:ronghuaiyang

导读

增强现实(AR)和虚拟现实(VR)正在彻底改变我们与外部世界的互动方式。即便是在引人入胜的沉浸式叙事和交互体验背后,这一切魔法都是通过尖端技术的精妙协调创造出来的。

增强现实(AR)与虚拟现实(VR):计算机视觉引领混合现实体验

增强现实(AR)和虚拟现实(VR)正在彻底改变我们与外部世界的互动方式。即便是在引人入胜的沉浸式叙事和交互体验背后,这一切魔法都是通过尖端技术的精妙协调创造出来的。

计算机视觉是其中的主要推动力,它默默地但强有力地引导着虚拟世界与现实世界之间的顺畅过渡。在本文中,我们将带你深入了解计算机视觉在混合现实中的应用:

  1. AR/VR基础知识及关键技术

  2. 应知的挑战

  3. 重要的实际应用

  4. 最佳开源项目

  5. AR和VR领域的顶级AI视觉趋势

0900e2a377f96910e9a129cc984d68c3.gif

使用头盔的虚拟现实游戏

计算机视觉在AR和VR中的基础

理解、分析并自动从数字图像和视频中提取数据是人工智能(AI)子领域计算机视觉的重点。增强现实(AR)和虚拟现实(VR)这两种沉浸式技术正在深刻改变我们与环境的互动方式。而这些技术在很大程度上依赖于计算机视觉。

计算机视觉(CV)是能够转变行业并增强日常体验的基础构建块。这项技术通过在数字世界与物理世界之间架起桥梁,创造了无缝、沉浸式的AR和VR体验。

在增强现实(AR)中,计算机视觉被用于:

  • 物体检测用于识别视觉数据中的物体

  • 物体跟踪用于理解物体的移动、计数人群和物体

  • 同时定位与地图构建(SLAM)使机器人能够在地图上定位自身

2d7bc8abbc2d35cab4d5634380157391.jpeg

先进的计算机视觉算法促进了全面的物体识别,从而实现了对场景中人类和各种物体的准确追踪和标注

在虚拟现实(VR)中,计算机视觉被用于:

  • 手部姿态估计和手势跟踪

  • 视线跟踪和注视识别

  • 空间映射和点云技术

7a11bd6e9d6c51bdb5c9f103828ec9f9.gif

用于视线跟踪的计算机视觉系统

高级追踪与空间映射

为了实现流畅且沉浸式的AR/VR体验,精确的追踪与空间映射至关重要。这些技术使系统能够识别三维空间中物体的形状、位置和朝向。这些信息被用来创建各种增强现实和虚拟现实应用。具体例子包括:

  • 精确物体放置。虚拟物体可以准确地放置并固定在现实世界中,实现真实的互动和遮挡效果。

  • 自然导航。用户可以在虚拟环境中自由移动或操纵物体,因为系统会追踪他们的动作和手势。

  • 增强现实叠加。信息和图形可以无缝地叠加到现实世界中,与实体对象和表面对齐。

4292f4f8d7ad02269a8977c924250307.jpeg

微软Holo-Lens的空间映射的例子
沉浸式物体识别与互动

创建完全沉浸式的增强现实和虚拟现实体验需要对物体检测和互动有基础的理解。这些技术让用户能够轻松地与虚拟物体互动,就像它们真实存在一样,从而提供了一种新的参与度和真实感。

接下来,我们将探讨一些最受欢迎的AR/VR技术,这些技术推动了沉浸式物体互动和识别的极限。

沉浸式物体识别与互动
Occlusion-Aware Rendering(遮挡感知渲染)

为了让增强现实体验显得可信,虚拟物体必须能够准确地与现实世界的物体互动并产生遮挡效果。因此,我们需要精确的深度估计和场景理解,以确定哪些物体位于其他物体前面,并相应地调整显示。

这可以通过使用深度感应摄像头进行立体视觉,以及基于学习的方法来实现。

60f2ddcdade49b38af5a965a68f34087.jpeg

计算机视觉技术可以增强和优化虚拟现实环境中的深度视觉图像,以实现更加沉浸式的用户体验
实时物体操控

让用户能够像对待真实物体那样拾取、移动和与虚拟物体互动是沉浸式AR/VR体验的关键。这需要准确的物体识别、姿态估计、实时物理模拟,以及诸如碰撞检测与响应、抓取与操控技巧以及触觉反馈等关键技术。

表面检测与追踪

准确地检测和追踪现实世界的表面使虚拟元素能够有效地附着并与之互动,从而在AR中创造出自然而直观的互动。

多模态物体识别与互动

结合来自多个传感器(相机、LiDAR、IMU)的信息可以带来更强大和准确的物体识别与互动,特别是在具有挑战性的环境中。例如,LiDAR数据可以提供准确的深度信息,而相机则提供了丰富的纹理和颜色细节。

物体属性与行为识别

识别物体的属性和行为(例如硬度、重量、易碎性)可以进一步增强互动的真实感。这可以通过分析物体形状、材质以及过去与物体的互动通过机器学习技术来实现。

实时手势识别

实时手势识别是AR/VR中直观和自然互动的核心。通过解读手部和身体的动作,用户可以控制虚拟物体、导航环境并在这些沉浸式世界中表达自己。接下来,我们将深入探讨塑造这一激动人心领域的技术和应用:

手部姿态估计

手势识别的基础在于准确理解手部的姿态和配置。这是通过各种技术实现的:

  • 混合方法。将标记法和无标记法相结合,通常使用标记进行初始校准和粗略追踪。无标记方法提供了手指运动更精细的细节。

  • 基于标记的追踪。无需使用计算机视觉,而是将物理的小标记附着在手套或手指上以测量和追踪它们的移动。虽然简单可靠,但这可能较为笨重且限制了自然的手势。

  • 无标记追踪。利用计算机视觉算法直接从相机图像分析手部姿势。深度学习模型通过在大量手部图像数据集上的训练实现了令人印象深刻的准确性,但需要相当大的计算资源。

d482ed49c8ebf23499d3a1d0428aefa4.jpeg

计算机视觉可以实时检测和跟踪手部运动

74719b4e462f8d7ae5cec67d17dba3f7.jpeg

计算机视觉系统可以训练来识别手势
手势识别与分类

一旦手部姿态被估计出来,就需要根据它们的意义来识别和分类手势。这包括:

  • 手势库。预定义的一组常见手势及其关联的手部姿态用于简单的识别任务。

  • 机器学习模型。通过在大型数据集上训练的深度学习算法可以准确地识别复杂和动态的手势。其他方法追踪关键点来理解动作。

  • 情境感知识别。考虑周围环境和用户意图以提高手势识别的准确性,尤其是在可能有多重解释的情况下。

1e08b4e8e713a7fb6137bd12c60e32cf.jpeg

通过解读手部姿势来理解手势

5cb6cbfd02b6c59c95d2b461df0fcc54.jpeg

在虚拟现实中利用动作与应用程序互动

同步定位与地图构建(SLAM)

AR/VR中的一个重要组成部分是SLAM(Simultaneous Localization and Mapping,同步定位与地图构建)。这使得机器人或智能设备能够在环境中追踪自己的位置并同时创建地图。SLAM技术对于在复杂环境中导航以及在繁忙情况下维持空间意识至关重要。

  • 视觉SLAM。利用摄像头捕捉视觉数据并提取特征,如边缘和角点。算法随后使用这些特征来估算设备的位置(位置和朝向),并相应地更新地图。

  • LiDAR SLAM。采用LiDAR传感器来测量与物体的距离并生成环境的三维点云。这使得更准确和更具弹性的地图构建成为可能,特别是在低纹理或光线不足的情况下。

  • 融合型SLAM。结合来自多个传感器(摄像头、LiDAR、IMU)的数据,以实现更强大和更准确的追踪和地图构建,尤其是在单个传感器可能难以应对的具有挑战性的条件下。

利用计算机视觉增强用户界面

除了帮助AR和VR用户理解他们周围的环境外,计算机视觉还在改变这些沉浸式体验中用户与数字组件互动的方式。开发者可以利用从视觉数据中获得的洞察来设计更直观、自然且具有情境感知能力的用户界面(UI)。

以下是一些最重要的技术:

视线跟踪

自动化的视线跟踪超越了眼睛注视检测,理解用户看向何处以及注视时间。这些信息可用于:

  • 聚焦注意力。VR系统可以根据用户注视的区域引导渲染资源,提高视觉保真度并减少计算负载。

  • 自适应内容。通过根据用户注视的地方调整内容、细节水平或叙述,从而创建更个性化和更具吸引力的体验。

ba9d2da8d7684358b34fcb4d921e0726.gif

使用视线检测的虚拟现实
基于注视的互动

基于眼睛跟踪,基于注视的互动消除了对物理控制器或传统UI元素的需求。用户可以通过注视虚拟物体或菜单并执行预定义的动作(如停留时间选择、注视手势或虹膜跟踪)直接与之互动。这创造了一个更加沉浸式且无需手部操作的互动体验。

动态UI覆盖

AR中的静态UI覆盖可能会打断对现实世界的自然视野。计算机视觉使动态覆盖成为可能,这些覆盖能够:

  • 适应环境。覆盖层可以根据周围物体和场景上下文调整其大小、位置和外观,从而减少视觉杂乱并保持用户的注意力集中。

  • 执行遮挡感知渲染。当虚拟元素被现实世界中的物体遮挡时,可以选择性地隐藏或透明渲染,确保物理世界和数字世界的无缝融合。

面部表情识别

通过面部表情理解用户情绪可以以多种方式增强AR/VR界面:

  • 适应性互动。虚拟化身或系统可以对用户的情绪做出同理心的反应,提供个性化的反馈或相应地调整体验。

  • 残疾人士的无障碍功能。面部情感识别可用于开发针对言语或运动障碍个体的替代沟通方法。

6899fc644379fc9278c8a58694c33b0d.jpeg

实时脸部表情识别

计算机视觉在AR和VR中的挑战

尽管计算机视觉为AR/VR开辟了一个充满激动人心可能性的世界,但仍面临重大挑战:

  • 计算限制。特别是对于包含高分辨率图像和多个传感器的复杂场景,实时处理视觉数据需要大量的计算资源。电池寿命和设备过热可能成为移动AR/VR应用的限制因素。

  • 光照和环境变化。在不同的光照条件、阴影和遮挡下,算法模型表现可能会显著下降。在光线昏暗或杂乱的环境中,准确的物体识别和追踪变得具有挑战性。

  • 遮挡处理。准确处理被遮挡的物体并确保当现实世界中的物体部分遮挡虚拟元素时实现无缝过渡仍然是一个技术难题。

  • 数据和隐私问题。训练强大的计算机视觉模型需要大量的标注数据。这引发了关于数据隐私和数据集潜在偏见的担忧。

推动前进的创新

尽管面临这些挑战,研究人员和开发者仍在不断推动计算机视觉在真实世界中的AR/VR边界:

  • 边缘计算。将计算密集型任务从设备卸载到云端或边缘网络减轻了AR/VR设备的处理负担,进而提高了性能和电池寿命。

  • 轻量化深度学习模型。开发更小且更高效的深度学习架构,在不牺牲准确性的情况下优化资源受限设备上的性能。

  • 传感器融合。结合来自多个传感器(摄像头、LiDAR、IMU)的数据提供了更丰富的环境信息,从而实现更强大和准确的追踪、地图构建和物体识别。

  • 合成数据生成。生成具有可控光照变化、背景和遮挡的真实感合成数据可以增强真实世界数据集,并提高算法的鲁棒性。

  • 隐私保护技术。安全飞地和差异隐私方法可以在收集、处理和存储期间保护用户数据,解决了计算机视觉应用中的隐私问题。

跨行业的AR/VR应用

视频游戏

在AR游戏中,现实世界通过数字叠加得到增强,允许玩家与环境互动。这项技术引入了基于地理位置的挑战,将游戏带入街道和公共空间。另一方面,VR游戏将玩家带入完全虚拟的世界,提供一种沉浸感,使用户感觉自己置身于游戏环境中。

运动控制器、触觉反馈和逼真的模拟增强了游戏体验,使其更加吸引人和真实。

9399b9fed7c45c28b87e0d3d285af6e1.jpeg

《Pokémon Go》被认为是最早的增强现实视频游戏之一
教育与培训

增强现实(AR)利用计算机视觉精确地映射并将数字信息叠加到现实世界的教育内容上,使学生能够与增强的内容互动。在虚拟现实(VR)中,复杂的计算机视觉系统通过追踪用户的动作、手势和互动来创建沉浸式的合成环境。这些技术使用复杂的CV模型进行实时物体识别、空间映射以及数字元素的精确对齐。

例如,虚拟环境可以让建筑学学生探索和操作三维建筑模型,提供真实的比例感和比例感。学生可以虚拟地穿行于建筑物中,可视化不同的设计元素,并体验空间是如何组合在一起的。

30c435c11e42ea93668ea8e915a27dea.jpeg

计算机视觉在AR/VR应用于建筑学研究
零售与产品可视化

在零售应用中,AR/VR技术的实施远远超出了虚拟试穿体验,对于转变整体购物旅程起到了至关重要的作用。这些技术提供了沉浸式和交互式的特点,如增强的产品展示和虚拟展厅。顾客可以探索详细的产品信息,比较选项,并体验商店的虚拟游览。

此外,AR应用提供了有关产品的实时信息、促销活动和个人化推荐,创造了一个动态且吸引人的购物环境。这不仅提升了顾客体验,还为零售商提供了有关消费者偏好和行为的宝贵见解。

9d262274f5fa435e0c43454e72370c0a.png

增强现实(AR)技术被广泛应用于提升零售体验
制造与设计

在制造领域,AR叠加提供了实时指导和信息,适用于装配、维护和设计验证等任务。工人可以在其物理环境中访问关键数据和指令,从而提高效率和准确性。这些技术通过让工人能够虚拟地可视化复杂的过程和机械,促进了增强型培训程序的实施。

此外,AR/VR应用有助于设计验证,使工程师能够在物理生产之前在模拟环境中评估和改进原型。这种集成提高了整体生产力,减少了错误,确保了更顺畅和有效的制造工作流程。

0f2f949fcb23a62aa03e4d5fa21811c1.png

VR在制造业中被用于提供复杂产品中各个部件的详细和沉浸式可视化,从而辅助设计、组装和质量控制过程
医疗保健

在医疗保健领域,AR/VR解决方案的整合在远程手术支持中发挥着核心作用,为外科医生提供沉浸式和精确的可视化,从而增强他们在远程执行手术的能力。此外,AR/VR在康复锻炼中也起到重要作用,通过提供交互性和个性化的模拟来帮助患者恢复。

医疗培训也从中受益,这些技术使医疗保健专业人士能够接受现实且沉浸式的模拟训练。精确的追踪和物体识别能力为这些应用的准确性和有效性做出了贡献。这些进步体现在患者护理、手术程序和医学教育等多个方面。

3d3b076e1fbdba79a8568b901d1a33fe.png

Miiskin是一款医疗保健应用程序,允许用户利用AR功能扫描皮肤以检测异常情况

与人工智能的合作与集成

计算机视觉与人工智能(AI)之间的协同作用正在以前所未有的速度推动AR/VR的发展。通过结合各自的优势,这些技术正在解锁沉浸式体验中的新层次感知、理解和互动。

机器学习处于这种合作的核心,赋予计算机视觉算法以下能力:

  • 从大规模数据集中学习。经过大量标注视觉数据训练的模型能够以越来越高的准确性识别物体、追踪动作和解释手势。

  • 适应多样化的环境。通过从不同的光照条件、背景和物体变化中学习,算法变得更加健壮,并能很好地泛化到未知情景中。

  • 推理和做决策。AI驱动的计算机视觉能够识别物体,并推理它们之间的关系、互动及其在AR/VR环境中的含义。

协作创新的例子:

  • 实时场景理解。AI可以实时分析视觉数据,理解AR/VR场景中的空间布局、物体和活动。这使得虚拟元素和内容能够根据上下文动态适应。

  • 个性化的AR体验。AI算法可以通过学习用户偏好来个性化AR体验,定制内容、互动和信息传递以满足个人需求和兴趣。

  • 情感智能的VR化身。AI可以通过分析用户的面部表情和语音模式来创建能够同情地响应并动态调整行为以适应用户情绪的虚拟化身。

  • AR应用中的预测性维护。通过分析工业设备的视觉数据,AI驱动的计算机视觉可以预测潜在故障,并通过AR辅助的维修过程指导技术人员。

最佳的AR/VR开源项目

开源社区在推进AR/VR的计算机视觉方面发挥了核心作用。通过提供免费可用的平台、库和数据集等资源,开源社区赋予开发者和研究者创建突破性应用的能力。

以下是社区为AR/VR工具做出的一些值得注意的贡献:

  • OpenCV。这是一个灵活的库,适用于实时计算机视觉应用。OpenCV经常被用于图像处理、物体追踪和AR/VR应用。

  • ARKit。苹果用于在iOS设备上构建AR体验的框架提供了访问相机、LiDAR和运动追踪等功能的能力。

  • ARCore。谷歌用于在Android设备上构建AR体验的框架提供了类似ARKit的功能。

  • 斯坦福大学的SUN3D。这是一个包含带有相应3D场景注释的大规模图像数据集,对于训练物体识别和场景理解算法非常有价值。

  • Matterport3D。这是一个全面收集的室内环境3D扫描数据集,对于使计算机能够开发和测试AR/VR中的空间映射和导航算法非常有用。

  • ReplicaNet。这是一个由合成生成的图像和3D模型组成的数据集,提供了一个受控环境,用于在不同条件下训练和评估计算机视觉算法。

5b006b521dc7f592df7960111ec5974b.jpeg

在增强现实中使用opencv的光流

计算机视觉在AR和VR中的趋势

计算机视觉在AR/VR领域的未来充满了激动人心的可能性:

  • 超现实体验。渲染技术、物体识别和场景理解的进步将创造出几乎无法区分的物理世界与数字世界的融合。

  • 情感计算。VR/AR系统将通过面部表情、语音分析和生理数据识别并响应用户的情绪,从而创造出更加个性化和引人入胜的体验。

  • **混合现实(MR)**。AR与VR之间的界限将继续模糊,创造出具有日益复杂互动的现实和虚拟环境。

  • 无处不在的AR。随着AR设备变得更小巧并更紧密地融入日常穿戴设备中,计算机视觉将使人们能够与数字世界互动。

总而言之,计算机视觉在AR/VR中的作用是构建逼真且引人入胜体验的基础。凭借从手势控制和物体识别到实时互动和空间映射的能力,计算机视觉正在改变我们与环境的互动方式。通过解决持久存在的问题、促进开源协作和拥抱持续创新,计算机视觉将继续拓展虚拟世界的边界。这将改变现实生活中的计算机交互方式,并颠覆众多行业。

4de54c1d9914750911b65e6e0be06074.png

—END—

英文原文:https://viso.ai/computer-vision/augmented-reality-virtual-reality/

db78f8592c9dd0efa0f228cd0c96427a.jpeg

请长按或扫描二维码关注本公众号

喜欢的话,请给我个在看吧

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值