多偏振融合生成对抗网络的简要总结

本文概述了一种用于提高水下图像清晰度的创新方法,即多偏振融合生成对抗网络。研究介绍了物理模型,详细阐述了网络结构,包括生成器的卷积和反卷积设计,以及判别器的结构和损失函数。重点在于网络如何利用偏振信息去除水下散射干扰,提升图像质量。
摘要由CSDN通过智能技术生成

文献概述目录

  1. 用于水下清晰成像的多偏振融合生成对抗网络-大连海事大学


前言

对文献Multi-polarization fusion generative adversarial networks for clear underwater imaging进行简要总结
中文名称:用于水下清晰成像的多偏振融合生成对抗网络(自己瞎翻译的)

文献原文: 链接


一、物理模型

实验示意图如下:
图1 被动偏振成像示意图
经典的图像复原物理模型可表示如下:
I ( x , y ) = D ( x , y ) + B ( x , y ) = L ( x , y ) ⋅ t ( x , y ) + B ∞ ⋅ ( 1 − t ( x , y ) ) \begin{aligned} I(x, y) &=D(x, y)+B(x, y) \\ &=L(x, y) \cdot t(x, y)+B_{\infty} \cdot(1-t(x, y)) \end{aligned} I(x,y)=D(x,y)+B(x,y)=L(x,y)t(x,y)+B(1t(x,y))
其中 I ( x , y ) I(x,y) I(x,y) 是相机拍摄到的总光强,它由两部分构成:目标物体的反射光 D ( x , y ) D(x,y) D(x,y) ,背景散射光 B ( x , y ) B(x,y) B(x,y) L ( x , y ) L(x,y) L(x,y)表示未经过散射粒子衰减的物体反射光, B ∞ B_{\infty} B 表示无穷远处的背景散射光强, t ( x , y ) t(x,y) t(x,y)表示散射介质的透过率, ( x , y ) (x,y) (x,y)表示一幅图像中像素点的坐标值。

因此,未经过散射粒子衰减的物体反射光 L ( x , y ) L(x,y) L(x,y),即我们想要复原的清晰图像光强可以表示为:
L ( x , y ) = I ( x , y ) − B ( x , y ) 1 − B ( x , y ) / B ∞ L(x, y)=\frac{I(x, y)-B(x, y)}{1-B(x, y) / B_{\infty}} L(x,y)=1B(x,y)/BI(x,y)B(x,y)
目前利用物理模型进行复原的方法,即水下散射环境中基于偏振去雾的物理模型,大部分是在此模型的基础上加以改进,此模型最早是由以色列的 Yoav Y. Schechner 等人在 2005 年提出的。

二、网络结构

1.生成器

网络结构如下:
多偏振融合网络生成器
该生成网络有3个输入,分别是偏振方向为0°、45°、90°的偏振图像。紫色模块的是普通的卷积层,蓝色的CBR模块由3部分组成Conv-BN-ReLU(卷积层、BN正则化、ReLU非线性激活),橙色的Concat模块用于将输入的3个张量进行拼接,一般情况下是在channel维度进行拼接,,黄色的DBR模块也由3部分组成DeConv-BN-ReLU(反卷积层、BN正则化、ReLU非线性激活),最后的绿色模块是单独的反卷积层。

作者画的网络结构很清晰,CBR模块作者配置了7个,DBR模块也配了7个,不过作者的网络结构图稍稍有一点问题,CBR与DBR快一样多时, F 2 F_{}^{2} F2的三个输出作为橙色拼接块的输入,拼接后的输出应该作为 D 2 D_{}^{2} D2的输入,作者却将它作为了 D d − 1 D_{}^{d-1} Dd1的输入,所以我猜测,作者应该是在绿色模块的右侧少画了一个 D 2 D_{}^{2} D2。但是这不重要,不影响对网络结构的理解。

2.判别器

判别器的网络结构
判别器网络结构
这个判别器结构与SRGAN、CycleGAN中使用的判别相同。与传统GAN网络的判别器相比,该网络输出的不是一个值,而是一个通道为1特征图,形如 ( b , 1 , w , h ) (b,1,w,h) (b,1,w,h), 对应的标签是与该输出维度相同的张量,真标签的值全为1,假标签的值全为0。

3.损失函数

作者使用了如下损失函数
L = L a d v + λ L p i x = E y ∼ p data  ( y ) [ log ⁡ D ( y ) ] + E x ∼ p data  ( x ) [ log ⁡ ( 1 − D ( G ( x ) ) ) ] + λ ∥ G ( x ) − y ∥ 1 \begin{aligned} \mathcal{L}=& \mathcal{L}_{a d v}+\lambda \mathcal{L}_{p i x} \\ =& \mathbb{E}_{y \sim p_{\text {data }}(y)}[\log D(y)]+\mathbb{E}_{x \sim p_{\text {data }}(x)}[\log (1-D(G(x)))] \\ &+\lambda\|G(x)-y\|_{1} \end{aligned} L==Ladv+λLpixEypdata (y)[logD(y)]+Expdata (x)[log(1D(G(x)))]+λG(x)y1
其中 L a d v \mathcal{L}_{a d v} Ladv表示对抗损失, λ L p i x \lambda \mathcal{L}_{p i x} λLpix表示像素损失, λ \lambda λ取100,像素损失对 图像复原任务的影响最大,所以像素损失所占的权重较高。


总结

在我看来,这篇文章创新点有下面几点:

  • 生成网络结构新颖,结构简单,仅使用卷积、BN、Concat、反卷积等基础网络结构
  • 数据集是在真实的自然水体中拍摄,符合实际使用中的需求
  • 4
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值