开放词汇目标检测

最新推荐文章于 2024-09-26 17:23:00 发布

学术菜鸟小晨

最新推荐文章于 2024-09-26 17:23:00 发布

阅读量581

点赞数 11

分类专栏：论文文章标签：目标检测人工智能计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34717531/article/details/142563193

版权

论文专栏收录该内容

42 篇文章 0 订阅

订阅专栏

开放词汇目标检测（Open Vocabulary Object Detection, OVOD）是一种计算机视觉技术，它扩展了传统目标检测的概念，能够识别和定位图像中的对象，即使这些对象的类别没有在训练数据集中明确列出。这种技术通过结合大规模预训练的图像-文本对模型，使得目标检测能够覆盖更广泛的词汇和对象类别，实现对新颖或罕见对象的有效识别。

预训练的图像-文本对模型：使用大规模的图像和配对文本数据进行预训练，如使用视觉-语言预训练（VLP）模型。这些模型通过学习图像内容与自然语言描述之间的关系，能够理解和表示广泛的对象和属性。
细粒度属性突出显示：传统的目标检测模型通常关注于识别对象的大类别（如狗、车等）。开放词汇目标检测模型通过显式突出显示细粒度属性（如颜色、形状、动作等），增强了模型对具有特定属性对象的识别能力。这通常通过修改模型的文本编码器部分，使其能够识别和强调输入文本中的细粒度属性词汇。
特征重组和调整：将全局文本特征与属性特定特征结合，通过设计或学习得到的算法对这些特征进行调整和优化，以提高对细粒度属性的检测精度。

开放词汇目标检测不仅提升了目标检测技术的覆盖范围和精确度，也为未来的智能系统提供了更强的视觉理解能力。

泛化能力：开放词汇目标检测能够扩展模型的泛化能力，使其能在没有直接训练数据的情况下识别新的对象类别。
细粒度识别：通过关注对象的细粒度属性，可以更精确地理解和描述场景中的各种元素，这对于自动驾驶、增强现实、内容创建等领域具有重要意义。
适应新环境：这种技术可以帮助模型适应动态变化的环境和持续扩展的对象类别，对于持续学习和适应性系统尤为重要。

论文作者：Yuqi Ma,Mengyin Liu,Chao Zhu,Xu-Cheng Yin

作者单位：University of Science and Technology Beijing

论文链接：http://arxiv.org/abs/2409.16136v1

内容简介：

1）方向：开放词汇目标检测

2）应用：目标检测

3）背景：传统的OVD模型注重对象的粗粒度类别而非细粒度属性，导致无法识别具有特定属性的对象。然而，这些OVD模型是在大规模图像-文本对上进行预训练的，具有丰富的属性词汇，其潜在特征空间可以表示全局文本特征，但未突出显示细粒度属性。

4）方法：本文提出一种通用和显式的方法，通过在显式线性空间中突出显示细粒度属性，增强了冻结主流OVD模型的属性级别检测能力。利用LLM突出显示输入文本中的属性词汇，通过调整令牌掩码，提取OVD模型的文本编码器中的全局文本和属性特定特征，将它们显式组合为新的属性突出显示特征，其中相应的标量被手工设计或学习以重新调整这两个向量。

5）结果：在FG-OVD数据集上的实证评估表明，所提出的方法统一提高了各种主流模型的细粒度属性级别OVD，并取得了新的最先进性能。

学术菜鸟小晨

关注

11
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

学术菜鸟小晨 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。