论文研读之TPSeNCE-去雨和雨天目标检测

TPSeNCE- Towards Artifact-Free Realistic Rain Generation for Deraining and Object Detection in Rain

论文链接

研究背景

下雨是一种常见的恶劣天气条件,会严重影响图像和视频的质量。雨痕,尤其是在大雨期间,模糊了场景细节和纹理。雨滴在挡风玻璃上形成一层水滴,使物体显得模糊和扭曲。闪亮的潮湿道路会产生物体反射。雨雾会散射环境光,降低远处物体的可见度。雨的这些视觉表现不仅损害图像的感知质量,而且给物体检测等场景理解算法带来挑战,这些算法通常使用晴朗天气条件下捕获的数据进行训练。
**改进雨中物体检测的一种常见方法是将除雨(即除雨)作为预处理步骤。**理想情况下,除雨算法应在应用对象检测模型之前从图像中去除雨水。然而,大多数最先进的除雨依赖于配对合成晴/雨图像的监督训练,因为获得真实的成对晴/雨图像很困难。不幸的是,由于合成和自然雨天图像之间存在很大的域差距,这些方法不能很好地推广到现实世界的雨天图像。尽管一些去雨方法使用不成对的真实清晰/雨天图像进行无监督学习来提高泛化能力,但整合来自监督和无雨图像的知识具有挑战性。
**增强雨天物体检测的另一种方法是使用雨图生成技术来创建合成雨天图像以训练物体检测器。**然而,传统的基于模型的雨生成方法,依赖于过于简化的假设和手工设计的先验,无法准确地模拟不同类型的真实降雨。相比之下,数据驱动的深度学习方法,例如像 UNIT [23] 这样的不成对的图像到图像翻译方法,已经证明了它们在不同天气条件下翻译图像的能力。然而,由于缺乏适当的约束,这些方法在产生降雨时经常会产生伪影和扭曲。

创新点:

  • 提出了三角概率相似性 (TPS) 损失函数,用于减少雨天图像生成过程中的伪影和失真。
  • 提出了语义噪声对比估计 (SeNCE) 策略,用于优化生成的雨量。
  • 评估了逼真的雨天图像生成对真实去雨和雨天目标检测的益处。

提要
mPA 和 mIoU 更有效地捕获分割中的语义相似性,对越对齐的图像对得分越高,而 PSNR 和 SSIM 在不同场景中显示出有限的差异。
在这里插入图片描述
如何理解 Figure 5:

  • 清晰图像: 图像的左侧是清晰图像,没有任何雨水遮挡。
  • 雨天图像: 图像的右侧是三个雨天图像,雨水遮挡程度逐渐增加。
  • 语义分割图: 图像的下方是清晰图像和雨天图像的语义分割图。语义分割图用不同的颜色表示不同的物体类别。

Figure 5 的目的是说明:

  • 随着雨水遮挡程度的增加,图像的质量会下降,语义信息也会丢失。
  • 语义分割指标,例如 mPA 和 mIoU,能够有效地捕捉图像之间的语义相似度,即使图像存在雨水遮挡。
  • 图像质量指标,例如 PSNR 和 SSIM,对图像的语义内容不敏感,因此无法有效地捕捉图像之间的语义相似度。

如何观察 Figure 5 中的图像:

  • 比较清晰图像和雨天图像,可以观察到雨水遮挡对图像质量的影响。
  • 比较清晰图像和雨天图像的语义分割图,可以观察到雨水遮挡对语义信息的影响。
  • 比较不同雨天图像的语义分割图,可以观察到随着雨水遮挡程度的增加,语义信息丢失的程度。

Figure 5 的结论:
Figure 5 表明,语义分割指标比图像质量指标更能有效地捕捉图像之间的语义相似度。因此,在雨天图像生成任务中,使用语义分割指标来评估生成的图像质量更为合适。

mPA 和 mIoU 是语义分割指标,而 PSNR 和 SSIM 是图像质量指标。

  • mPA(平均像素精度)mIoU(平均交并比) 是用于评估语义分割模型性能的指标。它们衡量的是模型预测的分割结果与真实分割结果之间的相似度。
  • PSNR(峰值信噪比)SSIM(结构相似性) 是用于评估图像质量的指标。它们衡量的是两幅图像之间的相似度,但它们主要关注图像的像素级差异,而忽略了图像的语义内容。
    为什么 mPA 和 mIoU 更能有效地捕捉语义相似度?
    mPA 和 mIoU 是基于语义分割结果计算的,因此它们能够捕捉图像之间的语义相似度。例如,如果两幅图像都包含相同的物体,即使物体的形状或位置略有不同,mPA 和 mIoU 也能够识别出它们之间的相似性。
    相比之下,PSNR 和 SSIM 主要关注图像的像素级差异。如果两幅图像的像素值非常接近,即使它们的语义内容完全不同,PSNR 和 SSIM 也会认为它们是相似的。
    为什么 PSNR 和 SSIM 在不同场景下的变化有限?
    PSNR 和 SSIM 是基于图像的像素级差异计算的,因此它们对图像的语义内容不敏感。在不同场景下,图像的语义内容可能会有很大的变化,但图像的像素级差异可能很小。因此,PSNR 和 SSIM 在不同场景下的变化有限。
    总结:
    在衡量图像相似度方面,mPA 和 mIoU 比 PSNR 和 SSIM 更能有效地捕捉语义相似度。这是因为 mPA 和 mIoU 是基于语义分割结果计算的,而 PSNR 和 SSIM 是基于图像的像素级差异计算的。

1、Triangular Probability Similarity (TPS)

在这里插入图片描述
其中:

  • X 是清晰图像
  • Y 是真实雨天图像
  • Z 是生成的雨天图像
  • HW 分别是图像的高度和宽度
  • D(X)D(Y)D(Z) 分别是清晰图像、真实雨天图像和生成的雨天图像的鉴别器输出矩阵
    TPS 的解释:
    TPS 损失函数计算的是生成的雨天图像 Z 与清晰图像 X 和真实雨天图像 Y 之间的距离之和,并减去 XY 之间的距离。直观地说,如果 ZXY 都很接近,则 TPS 损失函数的值会很小。
    TPS 的作用:
    通过最小化 TPS 损失函数,可以使生成的雨天图像更接近清晰图像和真实雨天图像,从而减少伪影和失真,提高生成的图像质量。
    TPS 与其他方法的比较:
    论文中比较了 TPS 与另一种称为 点到线距离(Point To Line Distance,PTL) 的方法。PTL 计算的是生成的雨天图像与连接清晰图像和真实雨天图像的直线之间的距离。然而,PTL 存在一个问题,即它可能导致生成的雨天图像位于直线的延长线上,从而导致生成的雨水过多或过少。TPS 通过使用三角形不等式来解决这个问题,确保生成的雨天图像位于清晰图像和真实雨天图像之间的线段上。
    总结:
    TPS 是一种有效的损失函数,可以用于约束生成的雨天图像,使其更接近清晰图像和真实雨天图像。与其他方法相比,TPS 能够生成更加真实自然的雨天图像。

补充
鉴别器是一个神经网络,用于判断输入图像是真实的还是生成的。
鉴别器的作用:

  • 鉴别器接收图像作为输入,并输出一个概率值,表示图像为真实图像的概率。
  • 在训练过程中,鉴别器试图区分真实图像和生成器生成的图像。
  • 鉴别器的目标是尽可能准确地识别真实图像和生成图像。
    鉴别器的工作原理:
    鉴别器通常是一个卷积神经网络 (CNN),它可以学习图像的特征,并根据这些特征来判断图像是真实的还是生成的。例如,鉴别器可以学习识别真实图像中物体的形状、纹理和颜色等特征,并判断生成图像是否具有这些特征。

鉴别器在 GAN 中的重要性:
鉴别器在 GAN 中起着至关重要的作用。它可以帮助生成器生成更逼真的图像。生成器和鉴别器在训练过程中相互对抗,生成器试图生成更逼真的图像来欺骗鉴别器,而鉴别器则试图更准确地识别生成图像。这种对抗过程可以促使生成器生成越来越逼真的图像。

图像的鉴别器输出矩阵:
在论文中,图像的鉴别器输出矩阵指的是鉴别器对图像的每个像素点进行判断后输出的概率值矩阵。矩阵中的每个元素表示对应像素点为真实像素点的概率。
例如,如果图像的鉴别器输出矩阵是一个 100x100 的矩阵,则矩阵中的每个元素表示对应像素点为真实像素点的概率,取值范围为 0 到 1。

2、Semantic Noise Contrastive Estimation (SeNCE):

旧方法:
PatchNCE:
在这里插入图片描述

Modulated Noise Contrastive Estimation (MoNCE):
在这里插入图片描述
不足之处:
PS:从不同角度拍摄的同一栋房子:虽然拍摄角度不同,但图像内容是同一栋房子,因此在语义上是相似的。

  1. MoNCE 对负样本的处理方式过于简单。 MoNCE 使用两种不同的加权策略来处理配对和非配对设置,但没有强有力的理由。在非配对场景中,图像可能看起来是配对的,例如从不同角度拍摄的同一栋房子或停放着不同汽车的相同停车场。在这种情况下,MoNCE 的加权策略可能无法有效地优化生成的图像质量。
  2. MoNCE 仅利用了图像级的特征信息。 MoNCE 使用随机图像块的特征相似度来计算负样本的权重。然而,在雨天图像生成任务中,许多目标域像素受到雨滴、条纹、潮湿和雾气的影响。这些像素可能无法提供精确的对比学习指导。

Semantic Noise Contrastive Estimation (SeNCE):

其中:

  • X 是清晰图像
  • Y 是真实雨天图像
  • Z 是生成的雨天图像
  • N 是图像块的数量
  • xizi 分别是清晰图像和生成的雨天图像中第 i 个图像块的特征向量
  • τ 是温度超参数
  • Q 是另一个超参数
  • wij 是负样本对的权重

wij:
其中:

  • β 是另一个超参数
  • F(i, j) 是基于语义相似度的对比学习力,由以下公式计算:
    F(i, j) = ((1 - mPA(X, Y)) * (xi · zj) + (mPA(X, Y)) * (1 - xi · zj))
    其中:
  • mPA(X, Y) 是清晰图像和真实雨天图像的语义分割图之间的平均像素精度

SeNCE 公式的解释:

  • 第一项:计算生成的雨天图像与清晰图像之间对应图像块的特征相似度。
  • 第二项:计算生成的雨天图像与清晰图像中所有其他图像块(负样本)的特征相似度,并根据 wij 进行加权。
  • wij 的作用是根据负样本与锚点(生成的雨天图像)之间的特征相似度以及清晰图像和真实雨天图像之间的语义相似度来调整负样本的“推力”。
  • 当清晰图像和真实雨天图像的语义相似度 mPA(X, Y) 较高时,F(i, j) 主要由 (1 - xi · zj) 决定。这意味着,如果生成的雨天图像块 zi 与清晰图像块 xj 的特征相似度较低,则应该施加更大的推力,将 zi 推离 xj
  • 当清晰图像和真实雨天图像的语义相似度 mPA(X, Y) 较低时,F(i, j) 主要由 (xi · zj) 决定。这意味着,如果生成的雨天图像块 zi 与清晰图像块 xj 的特征相似度较高,则应该施加更大的推力,将 zi 推向 xj
  • 通过最小化 LSeNCE,SeNCE 可以使生成的雨天图像更接近清晰图像和真实雨天图像,同时减少伪影和失真。

SeNCE 的优势:

  • 与传统的对比学习方法不同,SeNCE 能够根据负样本与锚点之间的相似度以及清晰图像和真实雨天图像之间的语义相似度来调整负样本的推力,从而更有效地优化生成的图像质量。
  • SeNCE 利用了语义分割图的信息,可以更好地捕捉清晰图像和雨天图像之间的语义相似度,即使图像存在雨水遮挡或未对齐的情況。
    总而言之,SeNCE 公式是这篇论文提出的雨天图像生成方法的关键部分,它能够有效地提高生成的图像质量,使其更加真实自然。

补充
对比学习通常涉及三个要素

  • 锚点 (anchor): 要学习的样本。
  • 正样本 (positive sample): 与锚点相似的样本。
  • 负样本 (negative sample): 与锚点不相似的样本。
    在 SeNCE 中,生成的雨天图像被视为锚点,清晰图像被视为正样本,而清晰图像中的其他图像块被视为负样本。SeNCE 的目标是通过对比学习,使生成的雨天图像更接近清晰图像和真实雨天图像,同时减少伪影和失真。
    因此,在 SeNCE 公式中,wij 的计算考虑了负样本与**锚点(生成的雨天图像)**之间的特征相似度,以及清晰图像和真实雨天图像之间的语义相似度。

特征相似度计算
通常使用点积来计算

a · b = ||a|| ||b|| cos(theta)

其中:

  • ab 是两个向量
  • ||a||||b|| 分别是向量 ab 的长度
  • theta 是向量 ab 之间的夹角
    当两个向量的夹角越小时,它们的点积越大,表示它们的相似度越高。
    因此,在 SeNCE 公式中,xi 乘以 zi 的值越大,表示清晰图像块 xi 和生成的雨天图像块 zi 之间的特征相似度越高。

3、NCEs的分析

在这里插入图片描述

结合作者的结论和图表来看:

  • 生成的图片雨少的时候,SeNCE损失的绝对值小,因此GAN损失起主要作用,指导模型生成更多的雨。
  • 生成的图片雨多的时候,SeNCE损失的绝对值大,因此SeNCE损失起主要作用,指导模型生成更逼真的图片。
  • Figure可以看出,图片由Z3转换到Z2时,SeNCE是三个NCE中作用最大的,即效果最好的。

4、最终训练目标:

在这里插入图片描述

实验结果

在这里插入图片描述
在这里插入图片描述
本人水平有限,有错的地方还请批评指正。

什么是精神内耗?
简单地说,就是心理戏太多,自己消耗自己。
所谓:
言未出,结局已演千百遍;
身未动,心中已过万重山;
行未果,假想灾难愁不展;
事已闭,过往仍在脑中演。

  • 11
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值