NVIDIA AI发布Describe Anything 3B

最新推荐文章于 2025-05-16 14:05:46 发布

庞德公

最新推荐文章于 2025-05-16 14:05:46 发布

阅读量683

点赞数 13

分类专栏：最新资讯文章标签：人工智能大模型视觉模型计算机视觉

本文链接：https://blog.csdn.net/Janexjy/article/details/147624377

版权

最新资讯专栏收录该内容

44 篇文章

订阅专栏

--->更多内容，请移步“鲁班秘笈”！！<---

NVIDIA推出了Describe Anything 3B（DAM-3B），一款多模态大语言模型，旨在提供详细的图像和视频本地化描述。配备DAM-3B-Video，该系统接受通过点、边界框、涂鸦或掩码指定区域的输入，并生成具有上下文基础的描述性文本。它兼容静态图像和动态视频输入，且通过Hugging Face提供公开访问。

虽然现有的视觉-语言模型(VLMs)在整体图像描述方面取得了很好的成果，但对图像或视频中特定区域进行详细而准确的描述仍然是一个尚未解决的问题。

目前详细描述局部面临的三个主要挑战：

区域细节丢失：现有方法通常从全局图像表示中提取局部特征，导致细节丢失，特别是在复杂场景中的小物体。
高质量数据集的缺乏：现有数据集如RefCOCOs和Visual Genome通常只提供简短的短语，不足以训练模型生成丰富、详细的描述。
基准测试的局限性：现有的评估方法通常使用基于语言的图像描述指标或LLM评分，但这些技术无法很好地适用于详细局部描述任务。

上方：先前的区域描述器从全局图像表示中提取区域特征，导致描述模糊。下方：通过放大（裁剪图像区域）可以增强细节，但会失去上下文线索，降低识别效果。这突显了需要一种设计，既能够编码富含细节的区域特征，同时保持上下文信息，从而提升DLC（区域描述生成）的效果。

整体架构

这张图展示了Describe Anything Model的架构设计，它主要用于生成详细的局部图像描述。架构可以从下到上分为几个关键部分：

焦点提示 (Focal Prompt)

底部显示输入包括完整图像 (I) 及其掩码 (M)，以及经过焦点裁剪的局部图像 (I') 和相应掩码 (M')。焦点裁剪处理将注意力集中在感兴趣的区域，同时保留全局上下文。

局部化视觉骨干网络 (Localized Vision Backbone)

这一部分包含两条并行处理路径：

全局路径 (左侧)：处理完整图像和掩码，将图像块嵌入 (E_I) 和掩码块嵌入 (E_M) 与位置编码 (P) 结合。通过自注意力层 (Self-Attention) 处理，重复N次。
生成全局视觉特征 (Z)局部路径 (右侧)：处理焦点裁剪的图像和掩码。同样将图像块嵌入和掩码块嵌入与位置编码结合。通过自注意力层处理。

注意两条路径之间有权重共享 (Weight Sharing)融合机制：

通过门控交叉注意力 (Gated Cross-Attention) 将全局视觉特征 (Z) 作为键值 (KV)，局部路径输出作为查询 (Q)生成融合的视觉特征 (Z')。

语言生成部分将文本提示标记 (t) 和融合的视觉特征 (Z') 输入大型语言模型 (LLM)，LLM生成详细的局部描述，例如："一个红色的、半透明的、圆顶形灯罩，配有白色底座。..."

这种设计的核心创新在于：

通过焦点提示保留了区域细节，通过局部化视觉骨干网络同时处理全局和局部信息。使用门控交叉注意力有效融合全局上下文和局部细节。最终使LLM能够生成既准确又详细的局部描述。这一架构有效解决了论文中提到的区域细节丢失问题，使模型能够生成高质量的局部描述，即使是针对复杂场景中的小物体。