语义分割:Performance Prediction for Semantic Segmentation by a Self-Supervised Image Reconstruction Deco

在有监督的学习中,深度神经网络的表现是通过使用确定真实数据来衡量的。在语义分割中,确定真实的数据是分散的,需要昂贵的注释过程,而且最重要的是,这样的注释过程在在线操作中并不可用。为了解决这个问题,最近的研究工作提出了来多种形式的预测。然而,它们要么依赖于推理数据直方图、额外的传感器,要么是额外的训练数据。
在本论文中,我们提出了一种新的每幅图像的性能预测的语义分割方式,该方式(i)不需要额外的传感器(传感器效率),(ii)不需要额外的训练数据(数据效率),以及(iii)不需要对语义分割进行专门的再训练(训练效率)具体地说,我们用图像重建解码器扩展了一个已经训练过的具有固定参数的语义分割网络。经过训练和随后的回归,通过对图像重建质量的评估来预测语义分割的性能。我们用一个新的最先进的基准测试来证明了我们的方法对于KITTI和仅限于输入的城市景观的有效性,在城市景观这部分甚至优于LIDAR支持的基准。
一、简介
DNN的缺点:贵,很少用于训练和测试,
难实施。实际中效果未知。
在自动化驾驶与扭曲环境中难使用
自动化驾驶的解决方法:领域适应技术(domain adaptation techniques)
扭曲环境的解决方法:提高对于歪曲输入的健壮性,发现或删除歪曲的数据

问题:DNN的性能难以预测
文章的解决方法:评估在推理过程中语义分割的真实性能
1,歪曲程度越大,语义分割和图像重构的表现就越差
2,别人的方法要么不提供每个图像的性能估计数,要么依赖额外的传感器
3,我们提出了一个基于每张图片的语义分割性能预测,不需要额外的数据和传感器
4,我们将语义分割和图像重构联系起来了,假设他们两个之间存在联系
5,基于每张图片的处理,在语义分割的处理网络中,对于编码器附加一个额外的性能预测,
为了从重建图像和原始图像的差值中得出mIoU的估计值。在训练语义分割网络之后加入图像重构解码器 的好处是语义分割性能不改变。而且该技术可移植,只要使用一个潜在的表示(the latent representation zseg)来重建输入。
6,训练额外的图像重建解码器image reconstruction decoder,打破了仅利用图像的语义分割最优纪录。

Related work
1,提出了一种性能预测方法,通过低性能预测扭曲输入,间接有助于检测机制
2,每一幅图像的估计,推理中只依靠摄像机数量,

总体框架
在这里插入图片描述

性能预测模块框架
1、附加图像重构解码器
第一种方法,我们使语义分割解码器作为重构解码器的基础。一般情况下,语义分割解码器会输入各种类型,每一种类型代表特点类型。我们使该解码器的输出特征映射到三维的类似RGB图像中,作为输入。
第二种方法是反射语义分割编码器。首先,递归地重建编码结构。在此过程中,所有的卷积层中的输入输出映射都会被转置。然后我们将在编码器中执行了下采样的卷积都替换为临近的上采样和后续的卷积,去避免棋盘效应

2、执行顺序训练

因为同时和混合效果差,所以要顺序训练。
考虑到在编码器中得到的代表性特征在语义分割中的关键性作用,我们先训练公共的编码器,然后训练重构解码器,而不是相反的顺序。

3,通过回归预测性能
通过对比重构的图像和原始图像我们得到了峰值信噪比(PSNR),用于评估图像重构性能。考虑到计算交点的平均联合mIoU需要对比语义划分输出和真实划分,所以PSNR与mIoU不能直接使用。所以我们在两个指标之中进行回归分析。我们想建立两者直接的关系,从PSNR中估计出mIoU的预测。

推理之前需要预测性能:
评估语义分割器,评估重构器,回归校准。
评估语义分割器:the mean intersection over union mIoU
,ϵ用来表示输入扰动的强度,下标ϵ表示平均失真强度,不同类型 的扰动在同一ϵ下,信噪比是一样的。
mIoU:Mean Intersection over Union
mIoU越高说明图像越好
评估重构器: PSNR:Peak Signal to Noise Ratio,峰值信噪比
均方误差:
在这里插入图片描述
在这里插入图片描述
PSNR越高,说明图像越好
回归校准:2阶多项式回归得到mIoU的估计
在这里插入图片描述

性能预测的评价:Pearson correlation
在这里插入图片描述

二、实验
在这里插入图片描述

1,SPP:空间金字塔池化,以增加感受野
2,RB:认知模块,卷积群,每个长宽除以二
3,UP:上采样模块,采样与横向连接的数据相加。
4,1*1:横向连接必须用1×1的卷积来调整维数先训练语义分割的Swiftnet18,随机初始化参数,使用200个epochs,batch_size=12使用亚当优化器与余弦退火学习使参数达到最优。

亚当优化器:避免冷启动,动量,自适应学习率+减少记忆
余弦退火学习:来“跳出”局部最小值并找到通向全局最小值的路径+当越来越接近Loss值的全局最小值时,学习率应该变得更小来使得模型尽可能接近这一点,而余弦退火(cosine annealing)可以通过余弦函数来降低学习率
1,随机初始化参数,10个epochs训练重构解码器,batch_size=12

三、实验结果
1.对于干净的数据:
在这里插入图片描述
SwiftNet18+SwiftNet-based reconstruction:好
SwiftNet18+ResNet18-based reconstruction:差
是由于附加的横向编解码器连接,因为把后者加上一个横向编码解码器之后结果就变好了,它可以更好的支持图像的重构。

2.对于失真的数据:
mIoU均值和PSNR均值都随着ϵ的增加而下降,表明了他们存在关联,且不依赖于底层的图片重构解码器
第一个图片与第二三个图片性对比,第一个图片的线条更加分散。由此我们认为PSNR或多或少只依赖于ϵ,而mean mIoU相比于mean PSNR不仅仅依赖于ϵ也依赖于扭曲类型,

3.对于皮尔森系数
swiftNet:
在这里插入图片描述
Lat.:从编码器到解码器的横向跳跃连接,结合横向编码器-解码器连接改进了ρ
SPP:而空间金字塔池化的影响可以忽略不计

而横向编码器-解码器连接改善了失真图像的ρ,但是也完全消除了干净图像上的相关性
This, however, does not pose a problem as in a practical use case, we could think of a high threshold θ and discard mIoU for PSNR > θ as on average with high PSNR we expect high mIoU
然而,这并不构成问题,因为在实际使用情况中,我们可以考虑高阈值θ,并在PSNR>θ时丢弃mIoU,因为平均而言,对于高PSNR,我们期望高mIoU

SwiftNet18与基于SwiftNet或基于ResNet18的重构解码器,并都具有横向编码器-解码器连接时,会产生最好的结果。
横向解码器:将语义丰富的深层与空间丰富的浅层混合。
在这里插入图片描述
基于ResNet18的重构解码器有大约11.2M的参数,基于swiftnet的一个只有大约0.95M参数的效率更高。

4.对于回归分析
We conclude, the high ρ we observe is caused only by the effect that an increasing ϵ leads to decreasing mIoU, PSNR.
我们观察到的高ρ是仅仅由于ϵ的增加导致mIoU,PSNR的降低。
语义分割的性能越好,回归错误越大,性能越差,回归越精确。这也印证了之前对于干净图片的地相关性。

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值