开放词汇模型(Open Vocabulary Models)是当前人工智能研究的一个重要方向,特别是在视觉理解和语义分割等任务中。传统的视觉模型通常依赖于预定义的固定类别,这限制了它们在动态多变的现实世界中的适用性。而开放词汇模型致力于克服这一限制,旨在处理来自开放集合的类别,使模型能够理解和识别未见过的概念。这种模型的核心挑战在于如何有效地从多样化的输入数据中构建共享的语义空间,从而实现对图像中不同类别的准确分割与标注。为此,研究者们结合了多模态学习和预训练技术,利用文本与图像的嵌入空间桥接开放词汇的语义鸿沟。此外,自监督学习的应用进一步提升了模型在未标注数据上的泛化能力,减少了对大规模标注数据的依赖。开放词汇模型不仅推动了语义分割和目标检测等视觉任务的进步,也加速了视觉与语言结合的跨领域研究。随着技术的发展,这一方向正在为实现更智能、更灵活的视觉系统铺平道路,展现出巨大的潜力和广泛的应用前景。
我们整理了近年来发表在顶级学术会议和期刊上的一些开放词汇模型研究论文,这些研究集中探讨了开放词汇模型在不同任务中的应用潜力,尤其是在如何高效处理未见类别和复杂多样环境方面的挑战,全面展示了这一领域的前沿进展与核心技术难题。
论文1
优点与创新
1. 轻量级设计:通过附加一个轻量级的侧网络,利用CLIP模型的特征,使得整个网络非常轻量。
2. 端到端训练:整个网络可以端到端训练,使得侧网络能够适应冻结的CLIP模型,从而提高预测掩码提案的CLIP感知能力。
3. 快速且准确:该方法快速且准确,仅添加了少量额外的可训练参数。
4. 显著优于现有方法:在多个语义分割基准上,该方法显著优于其他同类方法,具有多达18倍更少的可训练参数和19倍更快的推理速度。
5. 多数据集评估:在COCO Stuff、Pascal VOC、Pascal Context-59、Pascal Context-459、ADE20K-150和ADE20K-847等多个数据集上进行了评估,表现出色。
6. 单前向设计:提出了一种单前向设计,将浅层CLIP块的特征融合到SAN中,而将深层CLIP块与注意力偏差结合用于掩码识别,从而最小化了CLIP模型的成本。
7. 注意力偏差的应用:通过创建影子[CLS]标记副本(SLS标记),并在更新这些标记时应用注意力偏差,实现了对掩码提案的精确识别。
论文2
优点与创新
1. 首次提出联合训练检测与分割数据:OpenSeeD是第一个能够同时从检测和分割数据中学习的强基线模型,旨在实现开放词汇的检测与分割任务。
2. 提出分离技术:通过共享语义空间、解耦解码和有条件的掩码辅助,OpenSeeD有效地弥合了检测和分割任务之间的差异。
3. 新的状态-of-the-art性能:在多个数据集上,OpenSeeD在零样本和任务迁移设置中展示了具有竞争力或更强的零样本可迁移性。例如,在COCO和ADE20K数据集上,OpenSeeD在零样本分割任务上达到了新的最先进性能。
4. 条件掩码解码:引入了条件掩码解码,可以从分割数据的真实框生成掩码,并为检测数据提供掩码辅助,从而缩小了检测和分割数据之间的粒度差距。
5. 多任务学习框架:设计了一个简单的编码器-解码器模型,包含前景、背景和条件掩码解码能力,能够在不同的任务和数据集上进行无缝学习。
6. 广泛的基准测试:在超过60个数据集上进行了广泛的基准测试,验证了OpenSeeD在不同领域和数据集上的有效性。
论文3
优点与创新
1. 单阶段框架:提出了FC-CLIP,一种基于共享冻结卷积CLIP的简单而有效的单阶段框架,显著简化了现有的两阶段流程。
2. 性能提升:FC-CLIP在各种基准测试中取得了最先进的性能,同时在训练和推理速度上显著优于现有方法。
3. 参数减少:FC-CLIP使用的总模型参数比现有最先进的方法ODISE少5.9倍,训练时间也减少了7.5倍。
4. 多任务适用性:FC-CLIP自然地扩展到开放词汇语义分割和实例分割,进一步展示了其多任务的适用性。
5. 特征提取优化:通过使用冻结的CLIP骨干网络,FC-CLIP在保持图像-文本对齐的同时,提供了足够的特征用于掩码生成。
6. 输入分辨率适应性:CNN基础的CLIP在输入分辨率扩大时表现出更好的泛化能力,适合密集预测任务。
论文4
优点与创新
1. 首次探索:ODISE是首个利用大规模文本到图像扩散模型进行开放词汇分割任务的研究。
2. 新颖的管道设计:提出了一种有效结合文本到图像扩散模型和判别模型的方法,用于执行野外的开放词汇全景分割。
3. 显著进展:在多个开放词汇识别任务上显著超越了现有的基线方法,确立了该领域的新基准。
4. 高质量图像生成能力:文本到图像扩散模型能够生成高质量的图像,并且其内部表示空间与现实世界中的开放概念高度相关。
5. 语义理解和空间关系:通过K-Means聚类展示了扩散模型内部表示的语义差异化和局部化信息,证明了其在场景级结构理解上的潜力。