图像融合论文阅读：(DeFusion)Fusion from decomposition: A self-supervised decomposition approach for image fus

图像强

已于 2023-12-26 10:32:54 修改

阅读量2.7k

点赞数 19

分类专栏：图像融合文章标签：论文阅读图像处理深度学习论文笔记人工智能图像融合

于 2023-12-26 10:20:16 首次发布

本文链接：https://blog.csdn.net/jiexiang5396/article/details/135206914

版权

图像融合专栏收录该内容

40 篇文章

订阅专栏

@inproceedings{liang2022fusion,
title={Fusion from decomposition: A self-supervised decomposition approach for image fusion},
author={Liang, Pengwei and Jiang, Junjun and Liu, Xianming and Ma, Jiayi},
booktitle={European Conference on Computer Vision},
pages={719–735},
year={2022},
organization={Springer}
}

论文级别：ECCV 2022
影响因子：

📖[论文下载地址]

📖论文解读

作者提出了一个图像分解模型（DeFusion），通过【自监督】实现图像融合。在没有配对数据的情况下，该模型可以将源图像【分解到特征嵌入空间】（在该空间中可以分离共有特征和独有特征），在分解阶段通过联合训练的重构头在嵌入空间内实现图像融合。该模型是一个图像融合的【通用模型】

🔑关键词

Image fusion · Self-supervised learning · Image decomposion
图像融合，自监督学习，图像分解

💭核心思想

作者认为，图像融合本质就是对多源图像重要互补信息进行整合。基于此思想，【将源图像分解为特有分量和共有分量】，将分量简单【组合】即可得到融合图像。因此，作者设计了一个前置任务（pretext task）——共有及特有分解（common and unique decomposition ，CUD），用来在一个自监督学习框架下进行图像分解。具体操作为：

将原始场景 $x$ 中的一些patch替换为噪声，生成两个“原始图像” $x_1$ 和 $x_2$
将” $x_1$ 和 $x_2$ 输入分解网络DeNet，得到共有特征 $f_c$ 以及各自的特有特征 $f_u^1$ 和 $f_u^2$
使用两个映射头，即共有映射头 $P_c$ 和特有映射头 $P_u$ ，得到 $x_1$ 和 $x_2$ 的共有和特有图像（部分）
将 $f_c$ 、 $f_u^1$ 和 $f_u^2$ 输入重构映射头 $P_r$ 来重构原始场景 $x$

参考链接
[什么是图像融合？（一看就通，通俗易懂）]
[对 pretext tasks 的理解]

🪢网络结构

作者提出的网络结构如下所示。
在这里插入图片描述
无标签图像 $x$ 代表原始场景，使用随机掩膜 $M_i$ 和高斯噪声 $n$ 模拟退化变换 $\mathcal T$ ：

$\bar M_i$ 是用随机掩膜 $M_i$ 的逻辑否运算。

将” $x_1$ 和 $x_2$ 输入分解网络DeNet $\phi_\theta(·)$ ，得到共有特征 $f_c$ 以及各自的特有特征 $f_u^1$ 和 $f_u^2$
映入映射头将嵌入图像投影至图像空间
对于共有特征 $f_c$ ，投影 ${\hat x_c} = {P_c}\left( {{f_c}} \right)$ 应该与 ${x_c} = {M_1}\left( x \right) \cap {M_2}\left( x \right)$ 相似。同理，
$x_u^1 = {M_1}\left( x \right) \cap {\bar M_2}\left( x \right)$ ， ${P_u}\left( {{f_c^1}} \right)$
$x_u^2 = {\bar M_1}\left( x \right) \cap {M_2}\left( x \right)$ ， ${P_u}\left( {{f_c^2}} \right)$
是相应嵌入图像投影的ground truth

在这里插入图片描述

DeNet $\phi_\theta(·)$ 类似于瓶颈（bottleneck）结构，可以防止简单的映射被学习。
由三部分组成：编码器 $E_\theta(·)$ ，合成器 $E_\theta^c(·)$ ，解码器 $D_\theta(·)=\{D_\theta^u(·), D_\theta^c(·)\}$ x。
编码器包含三个最大池化层和残差层，获取压缩表示，特征图大小为 $\frac{H}{8}×\frac{W}{8}×k$
合成器仅由残差层组成， $E_\theta(x^1)$ 和 $E_\theta(x^2)$ 被concat后输入合成器提取共有表达
解码器包含几个上采样层和残差层，获取嵌入图