我首先介绍一下这个网络的大致流程:
首先使用所提出来的CM来对样本进行筛选,衡量样本是否符合用来训练判别网络
然后使用图像级别的数据集训练分类网络以生成CAM
接着导出像素级伪掩膜和不确定性掩膜
最后用伪掩膜对网络进行迭代训练,并通过不确定掩膜重新加权,减轻标签噪声的影响
一、Image-Level Label Filtering and Evaluation
可以很简单的看出来,当Cooccurrence matrix中值越大时,代表两个类同时存在与一张图片的这类图片在总的数据集中占比越大,代表这个数据集的共现现象很严重(Cooccurrence)。
这里我解释一下共现现象,共现现象是两个类或多个类同时存在与一张图片中,比如汽车通常和道路在一起,但是如果数据集里面都是汽车和道路在一起,那么网络在训练到深层的时候很有可能把汽车和道路分为一个类
二、Generating Pixel-Level Pseudo Mask and Evaluating Label Uncertainty
这里将image输入到网络生成类激活图(CAM),然后将将其做多个scale的缩放
这里为什么要做缩放呢?因为作者发现,通过在CAM上使用CRF进行缩放操作,不同尺度的方差对不确定区域有较大的响应,这可以反映噪声中的标记噪声伪面具。然后对class下的不同scale算方差,然后取max得到Uncertainty
这就是最后的输出
三、Training Segmentation Network Iteratively Guided by Label Uncertainty
因为方差越大,证明通过CRF的不同scale图片的区别很大,证明噪声很大,因此我们直接用1减掉U来生成权重
结论:本研究提出了多类场景中 RSI 图像级 WSSS 的精细框架。通过引入样本过滤来消除不合适的样本,并在所提出的 CM 的指导下,可以收集更适合 RSI 多类 WSSS 的图像级训练样本。为了减轻噪声伪掩模的噪声干扰,提出了一种基于多类CAM的不确定性驱动的像素级权重掩模生成方法,该方法可以显着提高分割网络迭代训练的上限,从而提高最终的分割精度。在 RSI 的二值图像级 WSSS 盛行的背景下,我们发现与训练多个二元分类网络相比,直接训练多类分类网络可以生成更好的伪掩模,这证明了研究多类 WSSS 方法的好处。详细的实验表明,所提出的框架可以实现高质量的语义分割,其图像级标签可与像素级标签相媲美,具体而言,对于 ISPRS Potsdam 和 Vaihingen 数据集可以达到超过 90%,对于 DeepGlobe 可以达到接近 99%以 mIoU 为单位的数据集。我们希望我们的方法和发现能够为实现大规模高质量RSI土地覆盖制图WSSS提供技术和思路参考。在未来的工作中,我们致力于开发解决共现问题的具体方法以及针对 RSI 的端到端 WSSS 方法。