Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and Vision-Language Tasks（未完待续……）

原来是小歌啊

已于 2023-11-02 15:54:04 修改

阅读量284

点赞数

分类专栏：多模态文章标签：人工智能

于 2023-10-31 21:41:32 首次发布

本文链接：https://blog.csdn.net/qq_42873279/article/details/134135300

版权

多模态专栏收录该内容

4 篇文章 0 订阅

订阅专栏

题目：Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and Vision-Language Tasks（未完待续……）

（Uni-Perceiver v2：大规模视觉和视觉语言任务的通用模型）
时间：2022年

总结：
1、为了增加模型的性能，改变对图像的编码方式。原先划分块的方式都是non-overlapping，有较多的冗余信息，本文中采用类似候选框选择的方式，重点关注前景区域，这样子可以增加分割和检测的性能。
2、提出了task-balanced gradient normalization，稳固多任务训练。原先训练方法一般是将所有的任务，在同一个iter中，放到一个batch中进行训练（mixed sampling strategy），对于单个任务而言，它的batch size其实是收到了限制的（大的batch size，往往会有较好的性能）。所以，本文中采用unmixed sampling strategy，并提出了Task-Balanced Gradient Normalization缓解模型的参数偏移。
3、

代码获得：https://github.com/fundamentalvision/Uni-Perceiver
解释：123

文章目录

题目：Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and Vision-Language Tasks（未完待续……）
前言
1. 介绍
2. 相关工作
3. 重新审视 Uni-Perceivers
4. 实验
5. 结论

前言

尽管基础模型取得了显着的成功，但其针对特定任务的微调范式使它们与一般感知建模的目标不一致。消除这种不一致的关键是使用通用模型进行通用任务建模。然而，现有的通才模型尝试在通用性和性能方面都不足。在本文中，我们提出了 UniPerceiver v2，这是第一个能够以具有竞争力的性能处理主要大规模视觉和视觉语言任务的通用模型。具体来说，图像被编码为一般区域建议，而文本则通过基于 Transformer 的语言模型进行编码。编码表示由与任务无关的解码器进行转换。不同的任务被表述为统一的最大似然估计问题。我们进一步提出了一种改进的优化器，以通过非混合采样策略确保稳定的多任务学习，这对于需要大批量训练的任务很有帮助。经过各种任务的联合训练后，Uni-Perceiver v2 能够直接处理下游任务，无需任何特定于任务的适配。结果表明，Uni-Perceiver v2 在多功能性和性能方面均优于所有现有的通用模型。同时，与普遍认可的需要针对特定任务进行微调的强大基线相比，Uni-Perceiver v2 在广泛的视觉和视觉语言任务上实现了具有竞争力的性能。

1. 介绍

学习能够处理各种模式和任务的通用感知模型被广泛认为是迈向通用人工智能的重要一步。由于其难度，许多作品（例如 Florence [45]、CoCa [44]、BEiT-3 [40]），也称为基础模型 [3]，转而专注于学习通用表示编码器的后备解决方案可以适应（例如，微调）各种下游任务。通过对大量多模态任务不可知数据进行大规模预训练，这些工作通过在包括单模态任务（例如图像分类和对象检测）以及跨模式任务（例如图像字幕和图像检索）。

尽管取得了成功，但基础模型与一般感知建模的目标之间仍然存在相当大的差距。虽然基础模型仅关注一般表示学习，但忽略了任务建模。仍然使用传统的特定于任务的微调范例（见图 1）。这显着增加了预训练模型适应各种下游任务的边际成本，难以满足各种下游任务和场景快速增长的需求。这种基础模型的特定于任务的微调范式与一般感知建模的目标不一致。

总结：基础模型，增加了各种任务微调下游的成本。潜台词：他们之前的基础模型后续还得微调，不好，我的模型好。

图 1 图 1. 基础模型和 Uni-Perceiver v2 的比较。 E I 和 E T 分别表示图像编码器和文本编码器。在现有的基础模型中，任务特定的解码器Dcls、Ddet； : : : 用于在不同的特定任务微调中调整 E I 和 E T 。适应中的参数总数 #Ptotal 随着视觉/语言任务的数量而增长，分别表示为 N I 任务和 N T 任务。相比之下，我们的 Uni-Perceiver v2 与通用解码器 Dgeneral 共享各种下游任务的所有参数，其中不包含特定于任务的微调。比以前的通用模型更好，我们的方法还可以有效地处理诸如图像分类、对象检测、实例分割和图像文本检索等支柱任务。

广义模型（我们论文的模型）不是执行特定于任务的微调，而是使用共享架构和参数处理不同的任务，这与一般感知建模的目标是一致的。它不仅降低了处理多样化任务的成本，而且还实现了任务协作。大多数现有的通用（广义）模型尝试都是序列到序列（seq2seq）模型。然而，这些尝试在通用性和性能方面都不足：（1）一些支柱视觉和视觉语言任务无法处理，如表2中列出的，例如图文检索、对象检测、实例分割；（2）准确性和推理速度仍然明显落后于最先进的特定任务方法。另一项名为 Uni-Perceivers [1, 48] 的研究构建了支持生成和非生成任务的通用模型。尽管如此，它们仍然无法处理许多重要的任务，例如检测和分割。
表（1）
表 1.主流视觉和视觉语言任务的类别。不同下游任务类别的支柱任务以粗体显示。这些支柱任务是每个类别中最具代表性的任务，可以从中衍生出其他任务。 UniPerceiver v2 能够有效处理下划线的支柱任务，但由于计算资源有限而尚未验证的图像合成除外。

总结：之前的模型：（1）一些支柱视觉和视觉语言任务无法处理：图文检索、对象检测、实例分割等；（2）准确性和推理速度仍然明显落后于最先进的特定任务方法。Uni-Perceivers ：改进了，支持生成和非生成任务的通用模型。仍然无法处理许多重要的任务，例如检测和分割。

为了开发具有更好通用性和性能的通用模型，我们的核心思想是将图像编码为由语义、边界框和分割掩模表示组成的通用区域建议。与以前将图像表示为不重叠的补丁的方法相比，这种设计使我们的定位建模更具表现力和灵活性。这种对定位线索的显式利用不仅大大降低了处理图像检测和分割等定位任务的难度，而且还为非定位任务提供了更丰富的特征，从而实现了更通用的任务建模和更好的性能。

在本文中，我们提出 Uni-Perceiver v2 作为一种通用模型，能够处理主要的大规模视觉和视觉语言任务，如表 1 中所列。 具体来说，图像通过区域提议网络编码为全局和区域表示的串联，而文本通过基于 Transformer 的语言模型进行编码。 图像和文本编码器都可以受益于现成的预训练模型，这减少了对训练数据和资源的需求并确保了性能。编码的表示由共享模态不可知的 Transformer [36] 网络进行变换以获得解码的表示。遵循 Uni-Perceivers [1, 48]，不同的任务被制定为统一的最大似然估计问题，并共同学习以实现一般任务适应。我们进一步提出了一种名为 MT-AdamW 的改进优化器 ，以确保稳定的多任务学习，采用非混合采样策略，每次迭代仅对所有 GPU 采样一个任务。这对于需要大批量训练的任务非常有帮助。

Uni-Perceiver v2 是第一个在主要大规模视觉和视觉语言任务上取得竞争性结果的通用模型，包括对象检测、实例分割、图像分类、图像字幕和图像文本检索，但由于有限而尚未验证的图像生成除外。计算资源。经过各种任务的联合训练后，它可以直接处理广泛的任务，而无需任何特定于任务的适应，在现有的通用模型中实现了最先进的性能。我们的贡献总结如下：

我们提出了 Uni-Perceiver v2，这是第一个能够以具有竞争力的性能处理本地化和非本地化任务的通用模型。图像的通用区域提议编码带来了更加灵活和富有表现力的定位建模。
为了提高多任务学习的有效性，我们采用非混合采样策略来实现大批量训练，并开发了一种名为 MT-AdamW 的改进优化器来减轻梯度的不稳定性。
Uni-Perceiver v2 在多功能性和性能方面均优于所有现有的通用模型。与公认的需要针对特定任务进行微调的强基线相比，Uni-Perceiver v2 在没有任何特定任务适应的情况下，在广泛的下游任务上实现了具有竞争力的性能，展示了其强大的通用任务建模能力。

总结：1、提出了 Uni-Perceiver v2（图像的通用区域提议编码）；2、采用非混合采样策略来实现大批量训练 + 开发了一种名为 MT-AdamW 的改进优化器来减轻梯度的不稳定性；3、性能好

2. 相关工作

基础视觉模型
“旨在通过大规模数据预训练来适应（例如微调）各种下游任务”[3]。这种大规模的预训练视觉模型在丰富数据编码能力、缓解数据饥饿和提高下游任务性能方面表现出了有效性。
ImageNet-1k [9] 上的图像分类长期以来一直是主流的预训练范式。然而，随着模型尺寸的增长，需要更大的注释数据集以避免预训练中的过度拟合，例如ImageNet-21k [9]、Instagram-1B [24]、JFT-300M [35]和JFT-3B [ 46]。受到大规模网络爬行文本语言预训练成功的启发，CLIP [27] 和 ALIGN [13] 开始关注网络规模噪声图像文本对的多模态对比预训练，以学习对齐图像和文本表示。 SimVLM [41]采用多模态序列生成任务进行预训练。 FLAVA [34] 结合了对比和生成预训练来处理单模态和多模态任务。

UniCL [42] 和 CoCa [44] 共同使用人工注释和网络爬取的数据。 Florence [45]和INTERN [31]增加预训练数据的规模和多样性以增强表示能力。 OmniVL [37]建议在其预训练中纳入图像语言和视频语言任务。 BEiT-3 [40] 将不同模式的预训练目标统一为单个屏蔽数据建模任务，在各种下游任务上实现了最先进的结果。

这些基础模型的工作只关注通用表示学习，而忽略了任务建模。当它们适应下游任务时，仍然采用传统的特定于任务的微调范式，这与一般感知建模的目标不一致。同时，随着不同任务和场景需求的快速增长，特定任务的微调范式将导致数据收集、数据注释、模型训练和模型存储的边际成本过高。

通才模型
通过共享架构和参数处理各种任务，这是机器学习社区长期以来所追求的。最近，受到 NLP 领域中序列到序列（seq2seq）模型成功的启发 [28]，OFA [39]、Flamingo [2] 和 GIT [38] 提出将各种任务建模为序列生成任务。

Unified-IO [23]、Pix2Seq v2 [6]和UniTab [43]进一步发展了这种方法，通过引入离散坐标标记来支持更多任务，从而可以通过统一模型对位置信息进行编码或解码。除此之外，Gato [29] 成功地将强化学习任务统一到 seq2seq 框架中。 GPV [11] 还通过在基于 DETR [4] 的视觉编码器上添加 seq2seq 模块来构建通用视觉系统。

然而，这些采用 seq2seq 公式的方法在通用性和性能方面仍然不足：（1）它们无法处理一些核心视觉任务，例如图像文本检索、对象检测和实例分割。尽管 Pix2Seq v2 [6] 包括检测和实例分割任务，但其性能和推理速度仍然明显落后于最先进的特定任务方法;(2)非并行自回归解码导致推理速度慢。例如，图像分类需要计算和比较给定图像条件下所有类别名称的累积概率；（3）它们还遭受多任务学习中的任务干扰问题，导致与特定任务模型相比性能下降。

或者，Uni-Perceivers [1, 48] 将不同的任务制定为通过表示相似性找到每个输入的最大似然目标，无论其模态如何，从而可以支持生成和非生成任务。尽管如此，它们仍然无法处理图像检测和分割任务。

总结

3. 重新审视 Uni-Perceivers

感知任务的统一建模
Uni-Perceiver [1] 提出将不同的任务重新表述为统一的最大似然估计问题。具体来说，每个任务都是用一组输入和一组来自任意模态组合的候选目标来定义的。首先使用具有线性投影的特定于模态的分词器对输入和目标进行编码。然后，编码表示由模态无关的解码器进行转换，并为不同的任务提供共享参数。给定输入，统一任务目标被定义为使用输入找到具有最大似然性的目标。

减轻任务干扰
具有完全共享参数的多任务学习可能会在不同任务之间引入干扰。 Uni-Perceiver-MoE [48]提出条件 MoE 来解决任务干扰问题。具体来说，对于每个输入令牌，根据特定的路由策略计算路由决策，该策略稀疏地激活一小部分专家来处理该令牌。输入令牌的相应输出是路由决策选择的专家的线性加权组合。有条件的 MoE 通过允许使用单独的参数来允许冲突的模式和任务，而不引入任何特定于任务的模块，从而减轻干扰问题。

局限性
尽管Uni-Perceivers的目标是通过统一的架构处理不同的任务，但由于其编码特征中缺乏定位信息，它无法处理检测和分割任务。同时，UniPerceivers 没有集成现成的编码器模型，使其无法从现有的大规模预训练编码器中受益。这可能会增加对预训练数据和资源的需求，从而限制其性能。