为边缘开发由生成式 AI 驱动的视觉 AI 智能体
NVIDIA 开发者计划
想要了解有关 NIM 的更多信息?加入 NVIDIA 开发者计划,即可免费访问任何基础设施云、数据中心或个人工作站上最多 16 个 GPU 上的自托管 NVIDIA NIM 和微服务。
加入免费的 NVIDIA 开发者计划后,您可以随时通过 NVIDIA API 目录访问 NIM。要获得企业级安全性、支持和 API 稳定性,请选择通过我们的免费 90 天 NVIDIA AI Enterprise 试用版使用企业电子邮件地址访问 NIM 的选项。
AI 技术的一项令人振奋的突破——视觉语言模型 (VLM)——为视频分析提供了一种更加动态和灵活的方法。VLM 使用户能够使用自然语言与图像和视频输入进行交互,从而使该技术更易于访问和适应。这些模型可以在 NVIDIA Jetson Orin 边缘 AI 平台或通过 NIM 在独立 GPU 上运行。这篇博文探讨了如何构建可以从边缘运行到云的基于 VLM 的可视化 AI 智能体。
什么是可视化 AI 智能体?
可视化 AI 智能体由 VLM 提供支持,您可以在其中用自然语言提出广泛的问题,并获得反映录制或直播视频中真实意图和背景的见解。这些智能体可以通过易于使用的 REST API 进行交互,并与其他服务甚至移动应用程序集成。这种新一代可视化 AI 智能体有助于总结场景、创建各种警报并使用自然语言从视频中提取可操作的见解。
NVIDIA Metropolis 带来了视觉 AI 智能体工作流,这些参考解决方案可加速由 VLM 驱动的 AI 应用程序的开发,以从视频中提取具有上下文理解的见解,无论是部署在边缘还是云端。
对于云部署,开发人员可以使用 NVIDIA NIM,这是一组推理微服务,包括行业标准 API、领域特定代码、优化的推理引擎和企业运行时,为视觉 AI 智能体提供支持。首先访问 API 目录,直接从浏览器探索和尝试基础模型。在 Metropolis NIM Workflows GitHub 页面上查看 NIM 驱动的视觉 AI 智能体示例。
这篇博文重点介绍 Jetson Orin 上边缘用例的实现,我们将探讨如何使用 NVIDIA JetPack SDK 的一项新功能 Jetson Platform Services 进行边缘部署。我们将构建一个生成式 AI 应用程序,该应用程序能够检测用户在实时视频流中以自然语言设置的事件,然后通知用户,如下图所示。
使用 Jetson 平台服务为边缘构建视觉 AI 智能体
Jetson 平台服务是一套预构建的微服务,可提供在 NVIDIA Jetson Orin 上构建计算机视觉解决方案的基本开箱即用功能。这些微服务中包含支持生成 AI 模型(例如零样本检测和最先进的 VLM)的 AI 服务。在