模态：计算机视觉的多维度语言

最新推荐文章于 2024-08-01 11:23:07 发布

ronghuaiyang

最新推荐文章于 2024-08-01 11:23:07 发布

阅读量1

点赞数

文章标签：计算机视觉人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg5ODAzMTkyMg==&mid=2247497149&idx=1&sn=7f9a9b6f47fe1586f734d59aeb34ef90&chksm=c14040678890664a03e6d724010ca93fdd7008e491433a9831fa831f4cb9ce5b6269d803a419&scene=126&sessionid=0

版权

点击上方“AI公园”，关注公众号，选择加“星标“或“置顶”

作者：Gaudenz Boesch

编译：ronghuaiyang

导读

在人类的角度来看，modality 的含义指的是触觉、味觉、嗅觉、视觉和听觉这些感官。然而，AI 系统可以通过与各种传感器和输出机制的集成来通过额外的数据类型进行交互。

"Modality" 的含义被定义为“某种事物存在的特定方式或被体验或表达的方式”。在人工智能领域，我们使用这个术语来讨论 AI 系统可以解释的输入和输出数据的类型。在人类的角度来看，modality 的含义指的是触觉、味觉、嗅觉、视觉和听觉这些感官。然而，AI 系统可以通过与各种传感器和输出机制的集成来通过额外的数据类型进行交互。

通过使用各种摄像头和传感器进行的模式识别和机器学习使系统能够识别和解释数据中的有意义的模式，以执行特定任务或解决定义好的问题。

了解模态

每种类型都提供了独特的洞察力，增强了 AI 理解和与其环境互动的能力。

模态的类型：

视觉模态：如卷积神经网络 (CNNs) 这样的模型使视觉数据的处理成为可能，用于诸如图像识别和视频分析等任务。例如，Google 的 DeepMind 利用计算机视觉技术进行蛋白质结构的准确预测。
声音模态：这指的是处理听觉数据的能力。通常，AI 系统使用如循环神经网络 (RNNs)这样的模型来解释声波。目前最常见的应用是语音识别和环境声音检测。例如，语音助手（如 Siri、Alexa）使用听觉模态来处理用户的命令。
文本模态：这些模态与理解和生成人类文本有关。这些系统经常利用大型语言模型 (LLM) 和自然语言处理 (NLP)以及基于 Transformer 的架构。聊天机器人、翻译工具和生成式 AI，如ChatGPT，都依赖于这些文本模态。
触觉模态：这与用于触觉技术的基于触摸的感官模态相关。一个明显的例子是能够执行精细任务的机器人，例如处理易碎物品。

最初，AI 系统主要集中在单一模态上。早期模型，如感知器，在 1950 年代为视觉模态奠定了基础。自然语言处理 (NLP) 是 AI 系统中多种模态的另一个重大突破。虽然它的明显应用是在可读文本中，但它也导致了诸如 LeNet 这样的计算机视觉模型的发展，用于手写识别。NLP 仍然支撑着人类与大多数生成式 AI 工具之间的互动。

卷积神经网络 (CNN) 模态的概念

20 世纪末 RNNs 和 CNNs 的引入对于听觉和视觉模态来说是一个里程碑式的时刻。2017 年 Transformer 架构（如 GPT 和 BERT）的推出又向前迈出了一大步。这些架构特别增强了理解和生成语言的能力。

如今，研究的重点正转向能够以多种方式与世界互动的多模态 AI 系统。

AI 中的多模态系统

多模态 AI 是能够解释和与世界互动的系统的自然演进。这些系统结合了多模态数据，如文本、图像、声音和视频，以形成对环境更加复杂的模型。反过来，这使得对周围世界的解释和响应变得更加微妙。

虽然整合个体模态可以帮助 AI 在特定任务中表现出色，但采用多模态的方法极大地扩展了能力的边界。

突破性的模型和技术

Meta AI 是多模态 AI 研究领域的前沿实体之一。它正在开发能够在不同模态之间理解和生成内容的模型。团队的一项突破是 Omnivore 模型，它可以使用相同的参数识别图像、视频和 3D 数据。

团队还开发了 FLAVA 项目，为多模态任务提供基础模型。它可以执行超过 35 种任务，从图像和文本识别到联合文本-图像任务。例如，在单一提示下，FLAVA 可以描述一张图像、解释其意义并回答具体问题。它还具有令人印象深刻的零样本能力，能够对文本和图像内容进行分类和检索。

FLAVA的结构概要，展示了图像和文本融合输入，已实现全面的多任务处理

Data2Vec，作为 Meta 的另一项倡议，证明了“完全相同的模型架构和自监督训练流程可用于开发图像、语音和文本识别方面的最先进的模型。”简而言之，这支持了实施多种模态并不一定需要极端开发开销的观点。

双模态 AI 训练方法的示意图，一个“学生”模型学习模仿“教师”模型处理复杂的语音处理任务。这个完全相同的模型可以处理文本、听觉和视觉模态。

Google 也在该领域做出了重要贡献，推出了如 Pix2Seq 这样的模型。该模型采取了一种独特的方法，即使用多模态架构解决看似单模态的任务。例如，它将物体检测视为一项语言建模任务，通过对视觉输入进行标记化处理。MaxViT，作为一种Vision Transformer，确保了局部和非局部信息的有效组合。

Pix2Seq 模型的工作流程：将视觉输入转化为有序的数据tokens以进行物体检测。该模型将图像转化为标注的文本信息，用于各种物体类别。

在技术层面，NVIDIA 在推动多模态 AI 创新方面发挥了重要作用。NVIDIA L40S GPU 是一款专为加速 AI 工作负载而设计的通用数据中心 GPU。这包括各种模态，如大型语言模型 (LLM) 推理、训练、图形和视频应用。它在开发下一代音频、语音、2D、视频和 3D 的 AI 方面仍可能发挥关键作用。

由 NVIDIA L40S GPU 驱动的 ThinkSystem SR675 V3 代表着能够处理复杂多模态 AI 的硬件。例如，它能够创建数字孪生和沉浸式元宇宙模拟。

实际应用

多模态人工智能系统的应用领域极为广泛，而我们才刚刚起步。例如，自动驾驶汽车需要结合视觉、听觉和文本等多种模式来响应人类指令并导航。在医疗健康领域，多模态诊断综合了影像资料、报告和患者数据，以提供更加精确的诊断。多模态人工智能助手能够理解和响应不同的输入，比如语音命令和视觉提示。

在健康领域的多模态AI应用

在最前沿的应用中，我们看到了采用多模态能力的先进机器人系统。在最近的一次演示中，下图展示了将人类语言输入与视觉解释相结合的能力。这使得它能够根据口头指示在厨房中执行典型的家务任务。我们还看到特斯拉的 Optimus 等其他竞争对手也有类似的发展。

使用多模态AI实现机器人和人类的互动功能

支持多模态AI的技术框架与模型

多模态系统的成功离不开多种复杂神经网络架构的集成。大多数多模态AI的应用案例都需要对其所处理的数据的内容和上下文有深入的理解。更进一步说，它们必须能够高效地同时处理来自不同来源的多种模态。

这就引出了如何最好地整合不同数据类型的同时平衡增强相关性和减少噪声的需求的问题。即使是在同一时间训练AI系统处理多种模态也会导致诸如共学(co-learning)等问题。这些问题的影响范围从简单的干扰到灾难性的遗忘都有可能。

然而，得益于该领域的快速发展，不断涌现出解决这些不足的先进框架和模型。有些框架是专门设计用来帮助和谐地合成来自不同数据类型的信息。PyTorch 的 TorchMultimodal 库就是这样一个例子，它为研究人员和开发者提供了构建模块和最先进的多模态模型的端到端示例。

值得注意的模型包括 BERT，它可以深度理解文本内容；以及卷积神经网络(CNNs)，用于图像识别。Torch multimodal 允许将这些强大的单模态模型结合起来，形成一个多模态系统。

这也带来了革命性的突破。例如，CLIP的开发改变了计算机视觉系统学习文本和AI表示的方式。此外，还有 Multimodal GPT，它扩展了 OpenAI 的 GPT 架构来处理多模态生成。

CLIP 预训练了一个图像编码器和一个文本编码器，以预测数据集中哪些图像与哪些文本相匹配，从而使 CLIP 成为一个零样本分类器。数据集中的所有类别都被转换为标题，例如“一张狗的照片”。然后 CLIP 预测与其估计最适合给定图像配对的标题所属的类别。

多模态AI系统开发面临的挑战

在将不同数据类型整合到单一AI模型中时，会面临多个挑战：

表示： 这一挑战在于如何编码不同数据类型，以便能够统一处理它们。联合表示将数据组合到一个共同的“空间”中，而协调表示则保持数据分离但结构上相互关联。由于噪声、缺失数据、结构和格式等方面的差异，整合不同模态变得困难。
转换： 某些应用场景可能需要完全将一种类型的数据转化为另一种类型。具体过程会根据两种数据类型的模态和应用场景的不同而有所区别。通常情况下，转化后的数据还需要通过人工评估或使用诸如 BLEU 和 ROUGE 等指标进行额外评估。
对齐： 在许多应用场景中，模态之间也需要同步。例如，音频和视觉输入可能需要按照特定的时间戳或视听提示进行对齐。由于固有的结构性差异，更为迥异的数据类型可能无法自然地对齐。
融合： 解决表示问题后，还需将模态合并以执行复杂的任务，如决策或预测。由于它们泛化的速度不同以及噪声水平的变化，这一过程往往充满挑战。
共学： 如前面所述，不良的共学会影响两种模态的训练。然而，如果处理得当，共学可以改善知识在这两种模态之间的转移，从而实现互相受益。这一挑战的原因与表示和融合相似。

寻找解决这些挑战的方法是一个持续发展的领域。一些模型无关的方法，如 Meta 开发的方法，提供了最有前景的前进路径。

此外，深度学习模型展示了自动从大型多模态数据集中学习表示的能力。这有可能进一步提高准确性和效率，特别是在数据高度多样化的场景下。加入神经网络也有助于解决与多模态数据的复杂性和维度相关的挑战。

多模态对AI及计算机视觉的影响

多模态技术的进步预示着未来AI和计算机视觉将无缝融入我们的日常生活。随着这些技术的发展成熟，它们将成为高级增强现实(AR)和虚拟现实(VR)、机器人技术以及物联网(IoT)的重要组成部分。

在制造业中应用机器人来自动化物理任务

在机器人技术领域，增强现实(AR)展现出巨大的潜力，能够简化编程并改进控制方法。特别是，增强现实可视化系统通过结合真实世界的物理环境与AR的沉浸式功能，提高了复杂决策的质量。将视觉、眼动追踪、触觉反馈和声音相结合，使交互变得更加沉浸式。

例如，ABB Robotics 在其 AR 系统中使用增强现实技术，将模拟解决方案叠加到真实环境中。它允许用户在部署解决方案之前，在 RobotStudio 人工智能软件中创建先进的模拟。PTC Reality Lab 的 Kinetic AR 项目正在研究利用多模态模型来进行机器人的运动规划和编程。

在物联网(IoT)领域，多模态交互系统(MIS)将真实世界的情境与沉浸式的增强现实内容相结合。这为用户交互开辟了新的途径。网络技术和计算能力的进步使得实时、自然且用户友好的界面成为可能。

—END—

英文原文：https://viso.ai/computer-vision/modality/

请长按或扫描二维码关注本公众号

喜欢的话，请给我个在看吧！

ronghuaiyang

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
模态：计算机视觉的多维度语言

点击上方“AI公园”，关注公众号，选择加“星标“或“置顶”作者：Gaudenz Boesch编译：ronghuaiyang导读在人类的角度来看，modality 的含义指的是触觉、味觉、嗅觉、视觉和听觉这些感官。然而，AI 系统可以通过与各种传感器和输出机制的集成来通过额外的数据类型进行交互。"Modality" 的含义被定义为“某种事物存在的特定方式或被体验或表达的方式”。在人工智能领域，我们使...
复制链接

扫一扫