CVPR 2021 Pre-Trained Image Processing Transformer

最新推荐文章于 2024-05-11 10:56:56 发布

smile909

最新推荐文章于 2024-05-11 10:56:56 发布

阅读量1.2k

点赞数

分类专栏： CVPR 2021

本文链接：https://blog.csdn.net/smile909/article/details/115257216

版权

CVPR 2021 专栏收录该内容

36 篇文章 22 订阅

订阅专栏

在这里插入图片描述

在图像处理任务中，预训练面临着以下两个挑战：第一，特定任务的数据可能是有限的。如医学图像和卫星图像这一类涉及付费数据或数据隐私的图像。各种不一致的因素(如相机参数、光照、天气等)会进一步干扰捕捉到的训练数据的分布。二、直到测试图像出来，才知道需要哪种类型的图像处理作业。因此，必须在手头准备一系列的图像处理模块。它们有不同的目标，但一些底层操作可以共享。目前计算机视觉和自然语言处理方面的预训练时很普遍的，主要研究的是预测试分类任务，例如目标检测模型的骨干通常是在ImageNet分类上进行预训练。目前计算机视觉和自然语言处理方面的预训练很普遍。然而图像处理任务中的输入和输出都是图像。直接应用这些现有的预训练策略可能是不可行的。此外，如何在训练前阶段有效地解决不同目标图像处理任务依旧是一个难题。

针对上述问题，论文利用transformer架构开发了一个用于图像处理的端到端的预训练模型，即image processing transformer (IPT)。由于预训练的模型需要兼容不同的图像处理任务，包括超分辨率、去噪、去雨线，整个网络由多个对应不同任务的头尾对和单一共享体组成。将训练图像输入到特定的头部，生成的特征被裁剪成小块(即“单词”)，并将其简化为序列。采用transformer对分别用于编码器和解码器的位置嵌入和任务嵌入的扁平特征进行处理。另外，根据具体的任务要求，强制结尾部分对输出大小不同的原始图像进行预测。此外，还引入了不同输入块间关系上的对比损失，以更好地适用于不同的图像处理任务。如下图所示。

由于transformer的潜力开发需要大规模数据集，论文准备ImageNet来训练IPT模型，其中包含1000个类别的各种高分辨率图片。对于ImageNet中的每张图片，论文使用几个精心设计的操作来为不同的任务生成多个已损坏的对应图像。例如，超分辨率任务的训练样本是通过对原始图像进行降采样生成的。论文用于训练IPT的完整数据集包含大约1000万张图片。在多个基准测试上的实验结果表明，预训练的IPT模型经过微调后，在自身任务上有明显的增强，可以超过大多数现有的方法。

smile909

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
CVPR 2021 Pre-Trained Image Processing Transformer

在图像处理任务中，预训练面临着以下两个挑战：第一，特定任务的数据可能是有限的。如医学图像和卫星图像这一类涉及付费数据或数据隐私的图像。各种不一致的因素(如相机参数、光照、天气等)会进一步干扰捕捉到的训练数据的分布。二、直到测试图像出来，才知道需要哪种类型的图像处理作业。因此，必须在手头准备一系列的图像处理模块。它们有不同的目标，但一些底层操作可以共享。目前计算机视觉和自然语言处理方面的预训练时很普遍的，主要研究的是预测试分类任务，例如目标检测模型的骨干通常是在ImageNet分类上进行预训练。目前计算机视.
复制链接

扫一扫

专栏目录