一种具有细粒度和多尺度的多源跨模态遥感图像检索方法


前言

随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。本文介绍一种遥感领域非对称的跨模态多源图像检索方法,使用多尺度自注意力模块提取遥感图像的显著特征,并根据该特征引导多源检索信息的动态整合和表征。
相关代码与数据集RSITMD已开源,欢迎领域学者使用交流:
https://github.com/xiaoyuan1996/AMFMN


Z. Yuan, et al., “Exploring a Fine-Grained Multiscale Method for Cross-Modal Remote Sensing Image Retrieval,” in IEEE Transactions on Geoscience and Remote Sensing, doi: 10.1109/TGRS.2021.3078451.


一、背景介绍

近些年来,遥感图像极大地提升了人们对地球的感知和观察能力,如何从大量的遥感数据中挖掘出有价值的信息是一项非常有挑战性的工作。现有方法与其它方法的检索结果可视化对比

现有方法与其它方法的检索结果可视化对比

基于深度学习的遥感图像检索方法,虽已获得一定效果,但现有算法仍存在一定的改进空间:

  • 遥感图像往往包含大量和查询信息无关的冗余目标,如何对这些目标进行动态滤除并获得更加显著的目标信息是提高检索精度的重中之重。
  • 相比于自然图像,遥感图像多尺度的特性决定了需要建立适应多尺度输入的检索模型。
  • 遥感图像极强的类内相似度意味着软正样本的存在,随即导致了模型在训练中面临着正样本歧义的问题。
  • 现有遥感图文数据集中的检索文本较为粗糙,这进一步降低了模型对细粒度文本的区分能力。

二、算法介绍

针对以上问题,本文提出了一种遥感图像多源检索的方法,并构建了一套具有多个检索源且更具细粒度的遥感图文数据集 RSITMD (Remote Sensing Image-Text Match Dataset)。

本文方法建立了非对称的跨模态多尺度图像多源检索算法AMFMN(Asymmetric Multimodal Feature Matching Network),并利用样本对的文本先验相似度信息建立了动态可变的 margin。

1.非对称的跨模态多尺度图像多源检索算法 (AMFMN)

模型整体框架

模型整体框架
AMFMN 使用多尺度图像自注意力模块(MVSA)来抑制遥感影像全局信息中无用的特征表示,进而得到影像中较为显著的 RoI 区域信息。接着通过非对称的网络构建,从而使得提取到的显著目标信息对多个检索源的表征进行引导,使其进行动态的融合从而得到良好的特征表示。

2.基于先验相似度的动态margin调整策略

传统优化函数和提出方法的优化目标对比

传统优化函数和提出方法的优化目标对比
进一步,为缓解遥感数据强烈的类内相似性所导致的正样本歧义问题,本文基于样本对的先验相似度设计了一个具有动态 margin 的三元组损失函数。简而言之,传统的优化目标旨在学习二分类问题的图文匹配,而提出的优化方法则使模型学习了图文间的匹配程度,从而将对硬标签的优化转换为了软标签的优化问题。

3.更加细粒度的多源遥感图文数据集(RSITMD)

不同数据集数据相似度可视化对比

不同数据集数据相似度可视化对比
相比于传统的带有粗糙文本和较高类内相似度的遥感图文数据集,本文构建了一个更加具有细粒度和更有挑战性的遥感图文匹配数据集RSITMD,支持用户分别或单独使用关键词或句子来进行遥感图像检索。

上图展示了使用 BLEU 和 ROUGH 指标可视化的自然场景图文数据集 (a-b) 和遥感场景图文数据集 (c-f) 的相似度曲线。数据集类内相似度在理想情况下是一条左上到右下方的对角线。相比于常用的遥感图文数据集,RSITMD 具有更加细粒度的文本描述,相似度曲线几乎与自然场景下持平。


三、实验结果

本文实验基于包含 RSITMD 在内的四个遥感图文数据集。部分实验结果如下:
四个数据集上的多种检索方法结果对比

四个数据集上的多种检索方法结果对比
相比于传统的检索算法,所提出的方法在各个数据集上取得了更优的检索性能。

MVSA显著性掩膜可视化效果

MVSA显著性掩膜可视化效果
在使用了 MVSA 模块之后,显著性掩膜允许网络提取图像中的显著特征,并使网络能够动态的关注和分析查询文本可能会关注的位置。

探索使用文本进行快速定位

探索使用文本进行快速定位
上图为使用所提出的网络来进行快速定位任务时所输出的概率图,可以看到本方法已经具有较好的文本定位效果。

总结

本文提出一种非对称和多尺度的遥感图像多源检索方法,该方法通过显著性掩膜和对查询信息的动态引导获得了较好的检索结果。未来将考虑如何将该方法应用在实际场景下,降低方法的模型参数和计算量,进一步提高方法的实用性。


参考文献:
[1] Shi, Z., & Zou, Z. (2017). Can a machine generate humanlike language descriptions for a remote sensing image?. IEEE Transactions on Geoscience and Remote Sensing, 55(6), 3623-3634.
[2] Chen, Y., Lu, X., & Wang, S. (2020). Deep Cross-Modal Image-Voice retrieval in Remote Sensing. IEEE Transactions on Geoscience and Remote Sensing.
[3] Lu, X., Wang, B., Zheng, X., & Li, X. (2017). Exploring models and data for remote sensing image caption generation. IEEE Transactions on Geoscience and Remote Sensing, 56(4), 2183-2195.

  • 6
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值