CVPR 2021 Pre-Trained Image Processing Transformer

在这里插入图片描述

在图像处理任务中,预训练面临着以下两个挑战:第一,特定任务的数据可能是有限的。如医学图像和卫星图像这一类涉及付费数据或数据隐私的图像。各种不一致的因素(如相机参数、光照、天气等)会进一步干扰捕捉到的训练数据的分布。二、直到测试图像出来,才知道需要哪种类型的图像处理作业。因此,必须在手头准备一系列的图像处理模块。它们有不同的目标,但一些底层操作可以共享。目前计算机视觉和自然语言处理方面的预训练时很普遍的,主要研究的是预测试分类任务,例如目标检测模型的骨干通常是在ImageNet分类上进行预训练。目前计算机视觉和自然语言处理方面的预训练很普遍。然而图像处理任务中的输入和输出都是图像。直接应用这些现有的预训练策略可能是不可行的。此外,如何在训练前阶段有效地解决不同目标图像处理任务依旧是一个难题。

针对上述问题,论文利用transformer架构开发了一个用于图像处理的端到端的预训练模型,即image processing transformer (IPT)。由于预训练的模型需要兼容不同的图像处理任务,包括超分辨率、去噪、去雨线,整个网络由多个对应不同任务的头尾对和单一共享体组成。将训练图像输入到特定的头部,生成的特征被裁剪成小块(即“单词”),并将其简化为序列。采用transformer对分别用于编码器和解码器的位置嵌入和任务嵌入的扁平特征进行处理。另外,根据具体的任务要求,强制结尾部分对输出大小不同的原始图像进行预测。此外,还引入了不同输入块间关系上的对比损失,以更好地适用于不同的图像处理任务。如下图所示。

由于transformer的潜力开发需要大规模数据集,论文准备ImageNet来训练IPT模型,其中包含1000个类别的各种高分辨率图片。对于ImageNet中的每张图片,论文使用几个精心设计的操作来为不同的任务生成多个已损坏的对应图像。例如,超分辨率任务的训练样本是通过对原始图像进行降采样生成的。论文用于训练IPT的完整数据集包含大约1000万张图片。在多个基准测试上的实验结果表明,预训练的IPT模型经过微调后,在自身任务上有明显的增强,可以超过大多数现有的方法。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值