一种轻量化多尺度的遥感跨模态图文检索方法


前言

本文提出一种面向遥感数据的具有极小规模模型参数的跨模态检索方法,并基于知识蒸馏设计了一种多层级监督优化算法来提升小模型的检索精度。最后基于对比学习构建了一种半监督优化算法,通过使用无标签数据来进一步增强检索模型的性能。
部分代码已开源,欢迎领域学者使用交流:
https://github.com/xiaoyuan1996/retrievalSystem


Yuan, Z., Zhang, W., Rong, X., et al. A Lightweight Multi-scale Crossmodal Text-Image Retrieval Method In Remote Sensing. IEEE Transactions on Geoscience and Remote Sensing.2021.


一、背景介绍

遥感图像极大提升了对地球的感知能力,如何快速有效地从大量遥感数据中挖掘出有价值的信息是一项非常有挑战性的工作。

基于深度学习的遥感图像跨模态检索(RSCR)方法,虽已获得一定效果,但现有算法仍存在一定的改进空间:

  • 现有RSCR方法往往耗时长、结构复杂,难以部署在小型计算平台上完成语义定位和跨模态检索等任务。
  • 如何设计轻量化检索模型的同时维持单模态数据的表征能力,是提高跨模态检索精度的重中之重。
  • RS跨模态配对数据的稀缺性给当前的有监督训练带来了极大挑战,进一步降低了模型对细粒度遥感图像的区分能力。

二、算法介绍

为减少检索算法的占用和开销,本文提出了一种轻量级RS跨模态多尺度检索模型(LW-MCR)。设计蒸馏损失和多尺度信息监督损失对模型进行隐层监督优化,以增强轻量化模型的检索性能。最后本文构建了一种半监督损失,通过计算无标签数据与anchor样本的语义相似度来进一步降低相似样本对检索模型来带的语义混淆。

1.LW-MCR架构

模型整体框架

模型整体框架
LW-MCR通过双线性池化来融合RS图像的多尺度特征,并通过视觉自注意力过滤冗余信息从而获得鲁棒的视觉特征。文本特征使用了较少参数的分组卷积来进行编码,并利用余弦距离来计算L2归一化后的视觉特征和文本特征的相似度。

2.隐层监督优化

提出的多层级优化方法

提出的多层级优化方法
提出的隐藏监督优化方法以LW-MCR为学生网络,以具有SoTA性能的AMMFN为教师网络。跨模态三元组损失首先被用来拉进网络输出和真值之间的距离:

在这里插入图片描述
接着,该方法一方面将两个网络的多模态表征进行对齐,从而直接使学生网络学习到教师网络的单模态编码方式:
在这里插入图片描述另一方面通过核函数将两者多层次信息在高纬度上进行对齐,完成了特征跨域迁移的过程:
在这里插入图片描述
知识蒸馏的方法使 LW-MCR 从教师网络的多个层次特征中学习隐藏知识,从而获得更加良好的多层次信息表征和不同模态的嵌入特征表示。

3.半监督性能优化

半监督性能优化

半监督性能优化
鉴于配对数据在训练中的局限性,无标签数据被用来降低相似数据所带来的语义混淆。在第一阶段,本文通过对比学习使用无标签数据建立了图像语义相似度计算模型:

在这里插入图片描述
在第二阶段,首先利用建立的语义相似度计算模型生成负样本掩码:
在这里插入图片描述
接着使用该掩码在训练过程中引进了更多有益的软负样本,从而在训练过程中增加了检索模型的辨别难度。
在这里插入图片描述


三、实验结果

本文在RSICD、RSITMD等四个遥感图文数据集上展开了实验,并采用平均召回率等指标来评估模型性能。部分实验结果如下:
在这里插入图片描述

四个数据集上的多种检索方法结果对比
LW-MCR在多个数据集上实现了极具竞争力的检索精度,并且模型参数仅为传统检索算法VSE++参数量的十分之一,FLOPS的六分之一。

语义定位结果可视化

语义定位结果可视化
上图中(a)-(c)分别展示了三个语义定位样例。每个结果从上到下分别是查询文本、定位图像和概率图。红色框用于绘制出现在查询语句中但并不为真值的区域。LW-MCR已经可以根据语义信息来定位出所描述的真值区域,同时对于一些非真值的描述词保持较低的关注。

RoI随迭代次数变化情况

RoI随迭代次数变化情况
当逐渐增加检索模型的迭代次数时,语义定位的关注结果也从大面积转为小区域,模型逐渐可以感知查询语义所处在检索图像中的区域位置。

使用不同数据集训练时模型的关注度差异

使用不同数据集训练时模型的关注度差异
此外,本文验证了RSITMD数据集在跨模态遥感图文检索任务上的有效性。在使用不同数据集来对模型进行优化时,使用RSITMD训练得到的RSCR模型达到了最优的结果,所生成的语义定位结果具有最少的虚警和漏检情况。

总结

本文首先提出了一个轻量级的多尺度跨模态检索模型,接着应用知识蒸馏和半监督优化提高了该检索模型的性能。未来将考虑如何结合图像的全局特征和局部邻接特征来构建更为稳健的特征表达,从而进一步提高方法的检索精度。


参考文献:
[1] Pilzer, A., Lathuiliere, S., Sebe, N., & Ricci, E. (2019). Refifine and distill: Exploiting cycle-inconsistency and knowledge distillation for unsupervised monocular depth estimation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 9768-9777).
[2] Y. Li, Y. Zhang, X. Huang and J. Ma, ”Learning Source-Invariant Deep Hashing Convolutional Neural Networks for Cross-Source Remote Sensing Image Retrieval,” in IEEE Transactions on Geoscience and Remote Sensing, vol. 56, no. 11, pp. 6521-6536, Nov. 2018, doi: 10.1109/TGRS.2018.2839705.
[3] Yuan, Z., Zhang, W., Fu, K., Li, X., Deng, C., Wang, H., & Sun, X. (2021). Exploring a Fine-Grained Multiscale Method for Cross-Modal Remote Sensing Image Retrieval. IEEE Transactions on Geoscience and Remote Sensing.

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值