VILA: Learning Image Aesthetics from User Commentswith Vision-Language Pretraining阅读笔记

来自谷歌的一篇使用VLP做下游任务(美学评价)的文章,发表于cvpr2023。

摘要

解决的问题:现有的图像美学评估(IAA)方法主要依赖于人类标记的评分,这过于简化了人类感知的视觉美学信息。相反,用户评论提供了更全面的信息,是表达人类对图像美学的意见和偏好的更自然的方式。有鉴于此,我们提出从用户评论中学习图像美学,并探索视觉语言预训练方法来学习多模态美学表征

具体做法:

具体而言,我们使用图像注释对预训练图像-文本编码器-解码器模型,使用对比和生成目标来学习没有人类标签的丰富和通用的美学语义。

为了有效地将预训练的模型用于下游IAA任务,我们进一步提出了一种轻量级的基于排名的适配器,该适配器使用文本作为锚来学习美学排名概念。

效果:

我们的结果表明,在AVA-Captions数据集上,我们的预处理美学视觉语言模型在图像美学字幕方面优于先前的工作,并且它在诸如零样本风格分类和零样本IAA等美学任务中具有强大的零样本能力,超过了许多监督基线。通过使用所提出的适配器模块仅使用最小的微调参数,我们的模型在AVA数据集上实现了最先进的IAA性能。

1.介绍

重点介绍本文的主要思想和贡献。主要是两阶段的视觉语言美学学习框架。

主要思想:

人类标记的评分过于简化审美感知的过程——人类更善于用自然语言表达审美偏好;

获取人类标记MOS依赖多任务训练或具有冻结属性网络的级联分数预测,获取相关标注数据费时费力——直接使用网站中的评价信息;

贡献:

a)提出了一个视觉语言美学学习框架(VILA),用于使用图像评论对学习丰富的图像美学特征。

b)设计了一个新的基于秩的模块,在不干扰预训练权重的情况下,使模型适应下游IAA任务(评分),以最小的附加参数有效地学习美学质量概念。

c)效果:预训练的美学模型在AVACaptions[11]数据集上的美学字幕方面优于先前的工作。即使没有任何监督标签,我们的零样本模型在AVA-Style[36]数据集上实现了69%的mAP,在AVA数据集上达到了0.657的SRCC,优于许多监督方法。通过所提出的适配器和少量可调参数,我们的方法在AVA上进一步实现了最先进的性能。

2. 相关工作

2.1 IAA

a)现有基于数据集标注的方法

在人类标记的美学评级(如MOS)上直接学习IAA模型可能是次优的,因为它缺乏关于图像是否美观的背景。为了提供更丰富的监督,各种方法试图整合外部知识,如主题[13,37]、人眼注视[10]和美学属性[5,26],以提高IAA的性能。这些方法通常依赖于多任务训练或具有冻结属性网络的级联分数预测。然而,获得额外的标记数据或现成的模型费时费力。

b)引入NL标注的方法

这些方法要么将IAA视为多个并行任务之一[37,55],不生成与质量相关的输出[55,67],要么在推理时需要图像和注释[15,66,67]。相反,我们的模型利用用户评论,使用对比和生成目标来学习有意义的美学表示,并且学习到的图像模型可以在没有文本输入的情况下独立使用。

c)优化网络结构以保留IAA高分辨率美学信息

例如基于CNN的方法[3,16,33],其减少了裁剪和调整大小的负面影响,以及转换器架构[12,20],其将输入图像视为视觉标记并支持可变长度序列,从而保留图像分辨率和纵横比。我们的方法在不考虑原始分辨率和纵横比的情况下,以固定的224×224输入获得了最先进的结果,我们相信这些相关方法可以进一步增强我们的模型,并将其纳入未来的工作中。

2.2 Image-Text Pretraining

ViT[25]的引入使基于端到端多模态变换器的方法[22,54]能够用于大规模视觉语言预训练。最近,CLIP[39]、ALIGN[18]和CoCa[60]等几种方法提出了在大规模图像文本语料库上训练的图像文本基础模型[18,63]。这些方法使用来自网络的数十亿对图像-文本进行了一般的预训练,并在检索、分类和字幕等各种任务上取得了令人印象深刻的结果。

并行工作[14,53]已经显示出使用这种通常预先训练的CLIP特征进行美学学习的好处。

然而,由于网络上与美学相关的图像-文本对的稀疏性,在这种一般的预训练过程中,美学信息会被稀释。为了解决这一问题,我们提出了对图像评论对进行美学预训练,以进一步增强美学信息。我们的模型基于CoCa[60]架构,为IAA设计了一个新的基于秩的适配器模块,以学习具有最小可调参数的相对美学质量。基于秩的适配器只优化一小组可学习参数,避免了灾难性遗忘[8,23],同时保留了预训练模型中丰富的知识。

3. 方法

预训练的目标是以自监督的方式,使用图像及其相关的用户评论,学习图像美学的强大多模态表示。

在不失一般性的情况下,采用了CoCa[60]架构,该架构将对比学习和图像自适应生成结合在一个框架中。方法使用于更广泛的的视觉语言预训练模型。

 3.1 CoCa的初步准备

CoCa包含一个图像编码器、一个单模式文本解码器和一个多模式文本解码器。图像编码器生成图像表示,而单峰文本解码器生成带有附加[CLS]标记的文本表示。这两种表述是使用对比目的来对齐的。多模式文本解码器通过交叉关注(cross-attending)图像特征来生成字幕。

Contrastive Learning Objective:两个单模态编码模块由对比目标共同优化,以对齐图像-文本对。

这是对比学习中常用的infoNCE loss,具体含义是计算特征的cosine距离 。如果将xTy看做一体,其实就是交叉熵loss。

这里面有一个τ参数,可以深入研究一下:

深度学习高温蒸馏:Softmax With Temperature - 知乎带你理解对比学习损失函数的性质以及温度系数的作用(一)-阿里云开发者社区

提高温度系数会导致输出分布的信息熵增大。

它的作用是控制模型对负样本的区分度。温度系数设的越大,q*k的分布变得越平滑,那么对比损失会对所有的负样本一视同仁,导致模型学习没有轻重。如果温度系数设的过小,则模型会越关注特别困难的负样本,但其实那些负样本很可能是潜在的正样本,这样会导致模型很难收敛或者泛化能力差。因此温度系数的设定是不可或缺的。

Generative Learning Objective:对于生成caption,多模态文本解码器学习最大化以自回归方式生成以视觉特征为条件的配对文本的似然

 联合训练对比和生成目标函数:

为了协同训练这两个目标,在图像编码器的顶部添加了两个特定任务的注意力池层[27],以生成对比图像表示和生成图像表示。预训练目标是对比损失和生成损失的加权和,使用超参数α和β:

 3.2 用于美学的Vision-Language预训练

视觉语言预训练方法需要大规模的数据来学习视觉信息和文本信息之间的复杂动态。其中许多方法是在大型专有数据集[18,39]上训练的,这些数据集具有从网络上抓取的图像-文本对。虽然这种通用的预训练策略已被证明对图像分类和检索等任务有用,但由于此类信息在网络上的表示不足,它表示美学相关信息的能力有限。因此,美学信息在大量的预训练数据中被稀释

为了解决这一限制,我们提出了一种两阶段预训练方法,该方法包括用通常预训练的图像-文本模型初始化模型,然后在美学图像-评论对上对其进行进一步预训练。对于一般的预训练,我们使用公开可用的LAION-5B-English[42]数据集的650M过滤子集。(注意和其他方案区分,预训练阶段是用两种数据集进行训练)

对于美学预训练,我们使用AVA字幕数据集[11],这是目前可用于美学评论的最大数据集。AVA字幕中的每个图像都与一个或多个用户评论相关联,这些用户评论提供了对图像的不同美学方面的信息性见解。我们为每个图像随机抽取一个评论,以在训练期间构建图像评论对。

4. 适应IAA的视觉语言模型

需要说明的是,本节的IAA是指美学打分,得出分数,广义的IAA是包括了美学文本评价的。因此相较于上节所述预训练中使用大规模美学caption训练得到的美学vision-Language模型,可以得出美学相关评价而言,美学打分是其下游任务。本节通过设计适配器来适应pretrained vision-Language模型到评分任务。

在本节中,旨在使用平均意见得分(MOS)标签进一步提高模型在IAA任务中的性能。微调整个模型的计算成本很高,可能会损害预处理模型的零样本和字幕功能。因此,提出了一个轻量级的基于秩的适配器模块来适应预训练的vision-Language模型到下游IAA任务,同时仅使用几个可调参数保持图像和文本主干冻结。适配器模块允许模型保留预训练主干的优势,同时为IAA任务利用丰富的美学文本信息。图2(2)描述了适配器模块的概述,我们将生成的模型称为VILA-R。

4.1 IAA Formulation

 本节训练F得到参数γ,优化目标即是将生成的r和人工标注MOS标签 l进行对齐,计算r和l的相关性来评价模型。

为了获取具有少量参数的有效F,从ZSL设置中获取灵感,其中不需要参数调整。由于配对图像-文本之间的余弦相似性通过对比预训练目标最大化(等式1),我们可以使用对比图像嵌入v和文本嵌入w之间的余弦相似度来衡量图像与文本概念的一致程度。通过使用文本作为“提示”,我们可以有效地为文本概念的图像打分(例如,它们是否是“好图像”)。我们的初步研究表明,使用文本提示进行IAA评分会导致超过0.6的相关性,这表明VILA-P中的文本解码器包含关于什么构成视觉愉悦图像的有用信息。我们的目标是利用这些信息作为锚,通过设计一个轻量级的基于排名的适配器模块,进一步增强模型的IAA排名能力。

4.2 基于秩的适配器模块

预训练过程包括对比和生成目标,在文本解码器中捕捉与美观图像相关的丰富文本概念,并将其嵌入与图像相同的潜在空间。因此,我们可以对图像嵌入进行轻微调整,以提高其与这些文本概念的一致性。

具体地说,提出使用“好图像”的冻结文本嵌入作为锚来对图像进行评分,并依据他们的MOS标签通过调整图像表示以优化两个图像之间的相对分数。(这句话说明做的特征学习)

以下是具体做法:

这部分是学的共享残差层的参数。

为了优化两个图像之间的相对排名,我们使用wp作为锚点,并优化一对输入图像的三元组排名损失LRA:

 LRA主要是约束正样本和“好图像”锚的相似性大于负样本和“好图像”锚的距离。

5.效果&总结

这边不复述论文中实验细节和指标结果了。放一下实际的评分/评价效果。

这篇论文主要就是提取评论中的标签去做对比学习,学到两种模态中相近的embedding后再生成文本(预训练阶段)。同时想做分数的生成任务,使用了MOS标签,通过引入学习残差层,实现了在分数生成任务的特征学习。

那么其实在下游任务中,看着的输出就是做标签的分类。具体作者说了,计算图像和单个提示对(“好图像”、“坏图像”)之间的余弦相似性,并使用“好图像“的softmax归一化输出作为IAA的ZSL分数。在实验结果中没有看到显化的分数结果,只有评价指标。

 从显示的推理效果来看,文本的多样性其实是不够的,限于文字的匮乏,美学的理解其实是很不足的。从下游任务的结果上来看,也只是达到了分类的作用,当然和分类的思路是不一样的。这个论文从最新的VLP角度研究美学任务,并且将美学评分作为美学评价的下游任务,进行了少量的参数学习。对于如何使用VLP到下游任务(美学理解),再如何将下游任务引入到下下游任务是有借鉴意义的。

这个方案和BLIP2的区别:

1. BLIP2的Q-former类似cross-attention,都是希望对齐两个模态的embedding。

2. BLIP2学习的是q-former的参数,而VILA学习Encoder&decoder全量参数。

3. 本质上BLIP2是用轻量的q-former解决VLP的预训练成本问题,VILA是提取美学信息。二者的两阶段训练也有本质的不同。VILA 预训练两阶段使用不同的数据集,学习到基础文本到图像和美学文本到图像的特征表示。BLIP2预训练学习qformer,相当于学习LLM和image-encoder的工作已经做完了。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值