TPAMI 2024 | 视觉-语言模型在视觉任务中的综述

248 篇文章 15 订阅 ¥49.90 ¥99.00

Vision-Language Models for Vision Tasks: A Survey

题目:视觉-语言模型在视觉任务中的综述

作者:Jingyi Zhang; Jiaxing Huang; Sheng Jin; Shijian Lu


摘要

大多数视觉识别研究严重依赖于深度神经网络(DNN)训练中的众包标记数据,并且通常针对每个单一视觉识别任务训练一个DNN,导致了一个繁琐且耗时的视觉识别范式。为了解决这两个挑战,最近对视觉-语言模型(VLMs)进行了深入研究,它从互联网上几乎无限可用的大规模图像-文本对中学习丰富的视觉-语言相关性,并能够使用单个VLM在各种视觉识别任务上进行零样本预测。本文系统地回顾了视觉语言模型在各种视觉识别任务中的应用,包括:(1) 介绍视觉识别范式发展的背景;(2) VLM的基础,总结了广泛采用的网络架构、预训练目标和下游任务;(3) VLM预训练和评估中广泛采用的数据集;(4) 现有VLM预训练方法、VLM迁移学习方法和VLM知识蒸馏方法的综述和分类;(5) 对综述方法的基准测试、分析和讨论;(6) 未来VLM研究中可能追求的几个研究挑战和潜在研究方向。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小白学视觉

您的赞赏是我们坚持下去的动力~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值