顶刊IJCV 2024！北大/哈工大/清华提出：自监督图像重建网络学习方法-CSDN博客

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer111，小助手会拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

一、论文信息

论文标题：Self-Supervised Scalable Deep Compressed Sensing（自监督可变采样率的深度压缩感知）
论文作者：Bin Chen（陈斌）, Xuanyu Zhang（张轩宇）, Shuai Liu（刘帅）, Yongbing Zhang†（张永兵）, and Jian Zhang†（张健）（†通讯作者）
作者单位：北京大学深圳研究生院、清华大学深圳国际研究生院、哈尔滨工业大学（深圳）
发表刊物：International Journal of Computer Vision (IJCV)
发表时间：2024年8月13日
正式版本：https://link.springer.com/article/10.1007/s11263-024-02209-1
ArXiv版本：https://arxiv.org/abs/2308.13777
开源代码：https://github.com/Guaishou74851/SCNet

二、任务背景

作为一种典型的图像降采样技术，自然图像压缩感知（Compressed Sensing，CS）的数学模型可以表示为，其中是原始图像真值（Ground Truth，GT），是采样矩阵，是观测值，是噪声。定义压缩采样率为。

图像CS重建问题的目标是仅通过观测值和采样矩阵来复原出GT 。基于有监督学习的方法需要搜集成对的观测值和GT数据，以训练一个重建网络。然而，在许多现实应用中，获得高质量的GT数据需要付出高昂的代价。

本工作研究的问题是自监督图像CS重建，即在仅给定一批压缩观测值和采样矩阵的情况下，训练一个图像重建网络。现有方法对训练数据的利用不充分，设计的重建网络表征能力有限，导致其重建精度和效率仍然不足。

三、主要贡献

技术创新点1：一套无需GT的自监督图像重建网络学习方法。

如图1（a）所示，在训练过程中，我们将每组观测数据随机划分为两个部分和，并输入重建网络，得到两个重建结果和。我们使用以下观测值域损失函数约束网络产生符合“交叉观测一致性”的结果：

进一步地，如图1（b）所示，为了增强网络的灵活性和泛化能力，使其能够处理任意采样率和任意采样矩阵的重建任务，我们对和进行随机几何变换（如旋转、翻转等），得到数据增广后的和，然后使用以下图像域损失函数约束网络，使其符合“降采样—重建一致性”：

其中和、和，以及和分别是随机生成的采样矩阵、噪声和采样率。

最终，结合以上两个损失函数，我们定义双域自监督损失函数为。

图1：提出的损失函数。

在训练阶段，我们使用以无需GT的自监督方式，学习一个支持任意采样率和采样矩阵的重建网络；在测试阶段，除了可以直接使用训练好的网络重建图像外，也可以使用在单个或多个测试样本上微调网络，以进一步提升重建精度。

技术创新点2：一个基于协同表示的图像重建网络。

如图2所示，我们设计的重建网络首先通过一个卷积层从观测值、采样矩阵与采样率中提取浅层特征，并依次注入可学习的图像编码和位置编码。接着，使用多个连续的深度展开网络模块对特征进行增强，每个模块对应于近端梯度下降算法的一个迭代步骤。最后，重建结果由一个卷积层和一个梯度下降步骤产生。

图2：提出的图像重建网络。

我们设计的重建网络结合了迭代优化算法的显式结构设计启发与神经网络模块的隐式正则化约束，能够自适应地学习待重建图像的深度协同表示，展现出强大的表征能力，在重建精度、效率、参数量、灵活性和可解释性等方面取得了良好的平衡。

四、实验结果

得益于提出的双域自监督损失函数与基于协同表示的重建网络，我们的方法在多个测试集（Set11、CBSD68、Urban100、DIV2K、我们构建的数据集）、多种数据类型（模拟/真实数据、1D/2D/3D数据）以及多个任务（稀疏信号恢复、自然图像压缩感知、单像素显微荧光计算成像）上均表现出优异的重建效果。同时，我们的方法展现出了对训练时未见过的采样矩阵与采样率的出色泛化能力。

图3：我们的方法与现有其他方法的对比结果。

更多方法细节、实验结果与原理分析可参考我们的论文。

五、实验室简介

视觉信息智能学习实验室（VILLA）由张健助理教授于2019年创立并负责，专注于AI计算成像与底层视觉、可控内容生成与安全、三维场景理解等研究领域，已在Nature系列子刊Communications Engineering、SPM、TPAMI、IJCV、TIP、NeurIPS、ICLR、CVPR、ICCV和ECCV等高水平国际期刊和会议上发表了50余篇论文。

在计算成像与底层视觉方面，张健助理教授团队的代表性成果包括优化启发式深度展开重建网络ISTA-Net、COAST、ISTA-Net++，联合学习采样矩阵压缩计算成像方法OPINE-Net、PUERT、CASNet、HerosNet、PCA-CASSI，以及基于信息流增强机制的高通量广义优化启发式深度展开重建网络HiTDUN、SODAS-Net、MAPUN、DGUNet、SCI3D、PRL、OCTUF、D3C2-Net。团队还提出了基于自适应路径选择机制的动态重建网络DPC-DUN和用于单像素显微荧光计算成像的深度压缩共聚焦显微镜DCCM，以及生成式图像复原方法Panini-Net、PDN、DEAR-GAN、DDNM，受邀在信号处理领域旗舰期刊SPM发表专题综述论文。本工作提出的自监督重建网络学习方法SCNet进一步减少了训练重建网络对高质量GT数据的依赖。

更多信息可访问VILLA实验室主页（https://villa.jianzhang.tech/）或张健助理教授个人主页（https://jianzhang.tech/）。

（供稿人：陈斌，北京大学博士生）

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

ECCV 2024 论文和代码下载

在CVer公众号后台回复：ECCV2024，即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

扫描下方二维码，或者添加微信号：CVer111，即可添加CVer小助手微信，便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer111，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集上万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请赞和在看