VLP
文章平均质量分 93
x_cube
这个作者很懒,什么都没留下…
展开
-
VLP、多模态视频文本(2)预训练任务
要说视频-文本预训练中使用的预训练任务。首先介绍一些流行的预训练任务。例如,双编码器模型通常通过进行优化。对于融合编码器模型,两个流行的预训练任务是掩码语言建模(MLM)和视频文本匹配(VTM)。然后,我们讨论旨在模拟视频输入的独特特征的预训练任务,例如帧顺序建模(FOM)和不同变体的掩码视频建模(MVM)。原创 2023-09-30 00:00:00 · 212 阅读 · 0 评论 -
VLP、多模态视频文本(3)实例
到目前为止,我们已经介绍了视频文本文献中一般的模型架构和流行的预训练任务。为了给读者提供更具体的例子,我们选择了三个代表性的模型作为案例研究,包括(i)MIL-NCE(Miech等人,2020),一个双编码器模型;(ii) UniVL (Lu等人,2022a),一个离线提取视频特征的融合编码器模型;以及(iii)ClipBERT (Lei等人,2021b),一个直接从原始视频像素学习结束到端融合编码器模型。我们简要回顾了它们的架构和预训练任务。原创 2023-09-30 14:30:00 · 213 阅读 · 0 评论 -
VLP、多模态视频文本(1)
视频本质上包含多种形式,并且已被用作测试AI系统如何感知世界的缩影。在本章中,我们对视觉语言预训练(VLP)在视频文本任务中的应用进行了系统回顾。我们从介绍流行的视频文本任务开始。我们回顾了典型视频文本模型的架构,该架构包括视频编码器、文本编码器和多模态融合模块。我们将代表性的视频语言模型分为两类:(i)双编码器,其中视频和文本分别编码,使用轻量级的多模态融合层或操作(如点积)来融合视频和文本特征;原创 2023-09-29 18:00:00 · 409 阅读 · 0 评论 -
VLP、多模态图文任务(4)核心视觉任务
随着关于核心计算机视觉问题的VLP文献快速增长,越来越多的论文和有趣的研究课题涌现出来,如图4.9所述。下面,我们简要讨论一些重要的课题,例如:知识增强视觉模型、多语言语言-图像模型、高效和鲁棒的模型适应性、基准测试等。• 知识增强视觉模型。文本编码器可以说是最近开发的语言增强计算机视觉系统中最独特的组成部分。因此,对于核心视觉识别任务来说,提高文本编码的能力非常重要。原创 2023-09-28 21:00:00 · 343 阅读 · 0 评论 -
VLP、多模态图文任务(3)高级主题
随着以图像和文本为基础的视觉语言预训练研究日益增长,许多其他有趣的研究主题也应运而生。以下,我们对每个单独的主题进行简要讨论,例如大模型、小样本学习、统一建模、鲁棒性评估等。原创 2023-09-26 21:00:00 · 337 阅读 · 0 评论 -
VLP、多模态的早期技术举例说明(3)
自上而下的注意力:给定一个图像-问题对,首先从基于目标检测(OD-based)的视觉编码器中提取区域级的自底向上特征(M是区域的数量)。使用词嵌入层和GRU作为文本编码器,得到问题特征 w。需要注意的是,问题特征是一个全局的文本表示,具有512维的单一向量,如图所示。BUTD采用模态间注意力,将查询问题特征关注到每个图像区域。具体而言,每个区域vi的注意力权重ai由一个注意力模型fatt计算,并通过softmax操作进行归一化:其中w_a是一个可学习的参数向量,f_a是一个门控tanh层。原创 2023-09-19 21:23:55 · 403 阅读 · 0 评论 -
VLP、多模态图文任务(1)
我们将VLP方法大致分为两类:(i) 双编码器(dual encoder)和 (ii) 融合编码器(fusion encoder)。原创 2023-09-20 19:58:04 · 734 阅读 · 0 评论 -
VLP、多模态的早期技术(2)
早期处于视觉-语言vision-language (VL),未涉及预训练。原创 2023-09-15 19:00:17 · 273 阅读 · 0 评论 -
VLP(Vision-Language Pre-training)的发展和评估(1)
VLP综述原创 2023-09-13 16:05:43 · 212 阅读 · 1 评论