背景
在语义分割任务中,常常会对输入图像进行下采样,下采样操作虽然带来了速度上的提升,但是却牺牲了细节上的精确度,本文证明均匀下采样是并不是最优的,并提出了一种由语义边界驱动的可选内容感知自适应下采样技术。本文的intuition是如果想要获得更多的分割质量,在下采样时需要考虑更多的使用靠近语义边界的像素。
非均匀下采样的优点:
1.通常的均匀下采样在原图像上进行边界精确定位更加复杂
2.非均匀采样隐式地通过减少较大分割图在下采样图像所占的部分和增加较小分割图在下采样图像所占的部分来考虑尺度变化。
方法
概述:分为3个部分
part1:非均匀下采样块,它被训练为对目标类的语义边界附近的像素进行采样
part2:使用现有的分割模型,对经过非均匀下采样块后的图像进行分割
part3:非均匀上采样块,对part2分割出的结果进行上采样,使得分割图的分辨率恢复到输入的原图大小
Boundary Driven Adaptive Downsampling
输入的size是H*W*C,假设我们将输入图像的所有像素坐标映射到网格坐标空间
:网格空间坐标(u,v)在输入图像中的最近邻位置的像素的值
:是我们需要学习的一个采样点横纵坐标构成的向量
训练方法:
从ground truth中根据语义标签计算出二值化的边界图,然后给每个像素坐标位置计算其在边界上最邻近的坐标位置
目标函数:
第一项:保证采样位置靠近语义边界位置
第二项:保证采样的空间结构不会过度的扭曲
约束条件:使得采样位置可以覆盖整张图像
第二项前的系数取不同值时,采样点的分布情况如上图。
非均匀下采样块在均匀下采样减小输入图像分辨率后,通过附加网络(两个UNet)学习采样坐标位置,将的size恢复到目标图像大小,利用进行非均匀下采样
附加网络结构(double UNet):