CMID笔记

文末有论文和代码链接


基础信息

关键词:对比学习;深度学习;掩膜图像建模;遥感预训练;自监督学习

期刊:IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING

年份:2023

目前问题

  1. 大多数现有的遥感自监督方法仅限于学习全局语义可分离或局部空间可感知表示

本文研究

  1. 更适合表示学习的自监督模型——对比掩膜图像蒸馏(CMID),能够通过对比学习(CL)与掩膜图像建模(MIM)相结合,以自蒸馏的方式学习具有全局语义分离性和局部空间感知性的表示
  2.  CMID 学习框架与架构无关,与卷积神经网络 (CNN) 和视觉转换器 (ViT) 兼容

论文概况

针对问题

  • 现有的方法,无论是CL还是MIM,都仅限于使用单一SSL方法。因为CL和MIM的固有局限性,学习到的表示在结合全局语义可分离性和局部空间可感知性方面都受到限制(如下图)
    • CL(a)仅关注图像间语义关系,而忽略了图像内结构,局部空间感知性较差
    • MIM(b)预训练模型在密集预测任务中表现良好,但在分类任务中效果不佳,全球语义可分离性较差
    • 本文所提CMID(c),以统一的方式学习具有全局语义可分离性和局部空间可感知性的表示

本文想法

  1. 最适合RS图像的SSL方法应该提高模型在各种下游任务中的性能,这意味着学习到的表示应该既是全局语义可分离的,又应该是局部空间可感知的
  2. MIM学习图像内结构并感知图像中每个像素的上下文信息,导致学习的表示具有局部空间可感知性,但代价是全局语义可分离性
  3. CL和MIM的不同学习目标导致捕获不同层次的抽象和语义,简单地将它们对齐在同一特征空间中将导致语义混淆和错位,最终降低下游任务的性能
  4. 提出了对比掩膜图像蒸馏(CMID)来克服以上挑战,并以统一的方式学习全局语义可分离和局部空间可感知表示

论文主要模块

CMID流程

  1.  学生编码器将蒙版图像映射到潜在嵌入
  2. 教师编码器则对完全增强的图像进行编码,以确保语义完整性并提供对比监督来指导学生
  3. 将潜在嵌入投影到不同的特征空间中,以执行重建或判别任务,这有助于防止不同语义级别的混淆
    1. 在重建任务中,学生通过在空间域和频域中恢复被屏蔽的部分来学习捕获局部空间细节的表示
    2. 在辨别任务中,学生通过区分学生和教师的嵌入与其他图像的嵌入来学习全局语义可分离表示
  4. 特征向量的局部语义对齐在教师和学生输入中的相应位置,以克服由于掩码比大而导致的语义不完整,并增强学习表示的局部可分离性

CMID模型:师生网络+三个分支

  1. 师生自蒸馏架构
    1. 整个网络旨在通过其师生架构在来自每个分支的学习信号之间进行交互和平衡
    2. 输入图像x,首先使用掩码增强或随机数据增强生成两个 x 视图,称为掩码图像和增强图像
    3. 将两个x视图分别输入给学生和教师。【教师和学生共享相同的架构(CNN 或 ViT)。学生的参数与教师的参数呈指数移动平均 (EMA)】
    4. 学生将蒙版图像映射到潜在嵌入
    5. 教师对增强图像进行编码以保持语义完整性并提供对比监督来指导学生
  2. 三个分支构成
    1. MIM分支:用 MIM 方法来学习局部空间可感知表示,使用学生在空间域和频域中的潜在嵌入输出来重建蒙版图像
    2. 全局分支:使用 CL 方法,专注于学习全局语义可分离表示
    3. 局部分支:通过自蒸馏来恢复在MIM分支中丢失的对象级信息

 MIM模块

  1. 遵循 SimMIM
    1. 将x修补为非重叠图像斑块 x^{p},并随机生成掩码 M 以隐藏图像斑块的一部分
    2. 被屏蔽的补丁被一个可学习的屏蔽令牌 [MASK] 替换,该令牌 [MASK] 初始化为零,以指示存在要预测的缺失补丁
    3. 编码器接收被屏蔽的图像 x_{mask}如公式1)并生成潜在嵌入
    4. 轻量级单层MLP解码器(上图中的MIM头)使用这种嵌入来输出预测的重建图像x′
    5. 采用L1损失和Lspat来更新参数模型(如公式2
  2. 一些问题
    1. SimMIM用MASK令牌替换了屏蔽的补丁,但RS图像以其多目标特性而闻名,并且对象通常密集分布。掩蔽操作可能导致图像中密集和较小的物体丢失,使得语义意义不完整
    2. 零初始化掩码令牌MASK 最初并未显示在图像中。直接使用它来替换被屏蔽的补丁会导致被屏蔽的图像和增强图像之间的不一致,这将降低其他两个分支中学习到的表示的判别性
  3. 对应优化
    1. 利用平均光谱值填充掩膜补丁的策略(如公式3,其中 x_{p}^{m} 表示在被掩膜的斑块被平均光谱值填充后的图像斑块集),并将可学习掩码标记MASK添加到补丁嵌入中(ViT中补丁嵌入层的输出或CNN中词干层的输出),而不是简单地替换被屏蔽的补丁
    2. 通过对齐学生和教师输出之间的局部语义,进一步减轻了由小对象丢失引起的语义不完整性
    3. 在频域中加入了焦频损失(FFL)L_{freq}如公式4) ,以加强原始图像和重建图像之间的一致性

全局分支

  1. 一些问题及解决
    1. 学生通过捕获细粒度的视觉上下文和语义来学习局部空间可感知的表示,但失去了全局可分离性
    2. 为了弥合这一差距,学生接受培训,以恢复蒙版图像的全局语义内容,并通过使用全局分支中的视觉词典队列将其表示与教师的表示对齐来学习全局语义可分离表示
  2. 流程
    1. 学生和教师的输出在采用的 MoCo CL 方法中充当查询和键
    2. 查询和键都使用全局平均池化 (GAP) 进行池化,以获取它们各自的全局表示,然后将其投影到另一个特征空间
    3. 应用 infoNCE 损失来对齐查询和键的表示(如公式5

局部分支

  1. 一些问题
    1. 掩码操作在RS图像中放置密集且较小的对象从而导致语义不完整,不仅恶化了MIM分支中局部空间语义的提取,而且由于它给图像的语义意义带来了歧义,从而影响了全局分支
    2. 由于蒙版和增强图像是通过对原始图像应用两次随机裁剪生成的,因此两个裁剪后的图像之间可能不存在任何重叠区域,即没有位置匹配的特征向量
  2. 对应优化
    1. 通过对齐学生和教师的本地语义来进一步缓解本地分支中的语义不完整性(详细流程如上图,结合流程看)
    2. 在随机裁剪过程中进一步限制了最小裁剪图像的大小,以确保两个裁剪后的图像之间存在一定的重叠,绝对位置计算如下图,特征向量在特征图中位置 (u, v) 的绝对位置如公式6、7

  • 流程
    1. 使用学生和教师在原始输入图像 x 中的绝对位置
    2. 从学生和教师的输出特征图中的特征向量中选择 N 个位置匹配对
    3. 利用两个特征图中每个特征向量的绝对位置计算它们的欧几里得距离,选择前N个最接近的特征向量作为位置匹配对
    4. 这些匹配的对被投影到另一个特征空间,并映射到一组可学习的原型,以获得它们各自与这些原型的相似性
    5. 训练过程中,这些原型逐渐被学习并对数据集中各种对象的语义信息进行建模,使模型能够学习比使用对比损失直接对齐匹配对更高级的局部对象级语义
    6. 对学生进行训练,以最小化位置匹配对之间这些相似性分布的差异,相似度分布pi和qi如公式8、9
    7. 最小化 pi 和 qi 之间的交叉熵损失,如公式10

 

  • CMID总损失如公式11


 论文链接

 代码链接

  • 14
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值