前言
本文提出一种面向遥感数据的具有极小规模模型参数的跨模态检索方法,并基于知识蒸馏设计了一种多层级监督优化算法来提升小模型的检索精度。最后基于对比学习构建了一种半监督优化算法,通过使用无标签数据来进一步增强检索模型的性能。
部分代码已开源,欢迎领域学者使用交流:
https://github.com/xiaoyuan1996/retrievalSystem
Yuan, Z., Zhang, W., Rong, X., et al. A Lightweight Multi-scale Crossmodal Text-Image Retrieval Method In Remote Sensing. IEEE Transactions on Geoscience and Remote Sensing.2021.
一、背景介绍
遥感图像极大提升了对地球的感知能力,如何快速有效地从大量遥感数据中挖掘出有价值的信息是一项非常有挑战性的工作。
基于深度学习的遥感图像跨模态检索(RSCR)方法,虽已获得一定效果,但现有算法仍存在一定的改进空间:
- 现有RSCR方法往往耗时长、结构复杂,难以部署在小型计算平台上完成语义定位和跨模态检索等任务。
- 如何设计轻量化检索模型的同时维持单模态数据的表征能力,是提高跨模态检索精度的重中之重。
- RS跨模态配对数据的稀缺性给当前的有监督训练带来了极大挑战,进一步降低了模型对细粒度遥感图像的区分能力。
二、算法介绍
为减少检索算法的占用和开销,本文提出了一种轻量级RS跨模态多尺度检索模型(LW-MCR)。设计蒸馏损失和多尺度信息监督损失对模型进行隐层监督优化,以增强轻量化模型的检索性能。最后本文构建了一种半监督损失,通过计算无标签数据与anchor样本的语义相似度来进一步降低相似样本对检索模型来带的语义混淆。
1.LW-MCR架构
2.隐层监督优化
接着,该方法一方面将两个网络的多模态表征进行对齐,从而直接使学生网络学习到教师网络的单模态编码方式:
另一方面通过核函数将两者多层次信息在高纬度上进行对齐,完成了特征跨域迁移的过程:
知识蒸馏的方法使 LW-MCR 从教师网络的多个层次特征中学习隐藏知识,从而获得更加良好的多层次信息表征和不同模态的嵌入特征表示。
3.半监督性能优化
在第二阶段,首先利用建立的语义相似度计算模型生成负样本掩码:
接着使用该掩码在训练过程中引进了更多有益的软负样本,从而在训练过程中增加了检索模型的辨别难度。
三、实验结果
本文在RSICD、RSITMD等四个遥感图文数据集上展开了实验,并采用平均召回率等指标来评估模型性能。部分实验结果如下:
总结
本文首先提出了一个轻量级的多尺度跨模态检索模型,接着应用知识蒸馏和半监督优化提高了该检索模型的性能。未来将考虑如何结合图像的全局特征和局部邻接特征来构建更为稳健的特征表达,从而进一步提高方法的检索精度。
参考文献:
[1] Pilzer, A., Lathuiliere, S., Sebe, N., & Ricci, E. (2019). Refifine and distill: Exploiting cycle-inconsistency and knowledge distillation for unsupervised monocular depth estimation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 9768-9777).
[2] Y. Li, Y. Zhang, X. Huang and J. Ma, ”Learning Source-Invariant Deep Hashing Convolutional Neural Networks for Cross-Source Remote Sensing Image Retrieval,” in IEEE Transactions on Geoscience and Remote Sensing, vol. 56, no. 11, pp. 6521-6536, Nov. 2018, doi: 10.1109/TGRS.2018.2839705.
[3] Yuan, Z., Zhang, W., Fu, K., Li, X., Deng, C., Wang, H., & Sun, X. (2021). Exploring a Fine-Grained Multiscale Method for Cross-Modal Remote Sensing Image Retrieval. IEEE Transactions on Geoscience and Remote Sensing.