论文笔记 DIAL: Deep Interactive and Active Learning for Semantic Segmentation in Remote Sensing

简介

这篇论文是面向遥感图像结合了主动学习的半自动分割深度学习模型。摘要中写道,我们提出这篇论文是为了构建一种神经网络和人循环的快速获得遥感图像准确的分割图的协同。简言之,代理(这里指交互的人)迭代式与网络交互来更正它的初始的错误的预测。具体来讲,这些交互是表示语义标签的注释。我们的方法贡献由两个方面。首先,我们提出了两种交互式学习机制将用户的输入集成到深度神经网络中(DNN)。第一种是将这些注释与另一个网络的输入连接起来。第二种是将注释作为稀疏的真值,用于对网络进行重新训练。为了达到这个目的,我们比较了不同的最先进的采集函数,以评估神经网络的不确定性,例如ConfidNet、熵或ODIN。通过对三个遥感数据集的实验证明了所提方法的有效性。值得注意的是,我们展示了基于不确定性估计的主动学习能够迅速引导用户发现错误,因此在引导用户干预方面是相关的。

方法-DIAL DEEP INTERACTIVE AND ACTIVE LEARNING

DIAL(deep interactive and active learning)包括不同的交互式学习模块和一个主动学习模块
在这里插入图片描述请添加图片描述

A. 交互式学习模块

分三种形式:
a) 注释作为通道(AC) 神经网络以RGB图像和注释的连接作为输入。在测试时,首先由代理以点击点的形式提供注释,然后使用距离变换进行编码,形成一个N维张量,其中N是标签空间的基数。在初始训练阶段,由于网络需要学习如何使用点击点作为引导来增强其初始预测,我们需要从样本真值中随机提供点给网络。并对仅图像输入进行采样以标准方式进行分割训练,并确保网络提出准确的初始分割图。
b) 在注释上重新训练:由于AC只修改了网络的输入而不是其参数,注释提供的信息不能改善全局的预测。受WTP启发,我们提出在每个注释进行少量反向传播周期来跨越这个局部性约束,从而重新训练网络。因此,我们使用注释作为稀疏的真值使用交叉熵损失来交互式地重新训练网络。我们用f表示由θ参数化的神经网络,x表示其输入。
c) 正则化:由于在通常由数百万像素组成的遥感图像中只有很少的像素被注释,因此交互产生的预测图非常稀疏。为了解决这个问题并避免过拟合,我们采用[26]、[30]的思想,通过使用初始预测p0 = f(x, θ0)进行正则化。具体来说我们添加了一个L1损失项,使用原始预测作为参考,以防止模型与原始预测差异太大的预测。因此,在交互式学习过程中我们的损失定义如下:
在这里插入图片描述
其中,1代表指示函数,c代表稀疏的注释像素。具体而言,c的取值为{-1, 0, 1}。对于被注释为属于类别i的像素,ci = 1,对于所有j(j≠i),cj = 0。对于未被注释的像素,对于所有i ∈ {1, . . . , N},ci = −1。 权衡了相对于已注释像素数量的损失。最后,正参数λ平衡了用户注释对于初始预测召回的影响。其调整将在第 III-C 节中考虑。
这两种机制使得DISCA具有持续学习的潜力,并避免了灾难性的遗忘。在交互式训练阶段,AC机制会被随机禁用:注释因此从输入中被移除。这避免了对注释通道的过拟合。

B. 主动学习模块

由于遥感图像可能非常庞大,DIAL还采用一种主动学习的策略,以迅速引导代理向代表图像中最有意义的区域的查询发起注释。为了实现这一目标,我们比较了不同的最先进的采集函数,这些函数用于估计算法的不确定性,以找到最适合我们使用场景和交互设置。
1) 形式化:为了形式化问题,我们用f表示由θ 参数化的神经网络,x表示输入图像,y表示其对应的真值图,a表示用户的注释,g表示注释编码函数。我们的目标是找到最优的注释a, 最小化一下问题:
在这里插入图片描述
其中⊕ 表示连接操作,δ 表示Kronecker运算符,N表示标签空间的基数,l表示像素集合。问题的值范围从当所有像素都被正确分类时为0,到当所有像素都被错误分类时为card(l)。
2) 方法论:我们提出以下的查询策略,以在给定图像上获益于DIAL。图像被划分为一个包含N个补丁的网格。这些补丁是按顺序注释的,但它们的注释顺序取决于不确定性度量。我们还在附录B中研究了一种基于像素的查询策略。
采集函数:我们介绍不同的采集函数,我们将对其进行比较以引导代理。
**a) 熵:**我们计算在softmax输出的每个像素的熵:U = −Σc yc × log(fc(x; θ))。尽管神经网络的softmax概率可能校准不足,但它们仍然可以提供一个强有力的基线来引导用户。
b) MC Dropout: MC Dropout在推断时通过启用dropout正则化引入了预测的随机性。这允许获得一个隐式的模型集成。在实践中,我们在神经网络添加dropout层,通过网络进行多次前向传递以创建多个softmax向量。然后,我们计算这些预测的方差来测量它们的不一致性,并将其用作不确定性度量。
c) ConfidNet: 正如[15]提出的,我们训练了一个小型辅助网络,用于学习使用其最后几层作为输入来估计下游网络的置信度值。它由一个转置卷积层和四个3*3卷积层组成,分别为32,120,64,32和1个输出层。最后的sigmoid层提供置信度分数。
d) ODIN: 参考[14]该方法主要用于异常值检测,我们通过类似对抗攻击的方式轻微扰动图像输入,旨在强化softmax输出的预测概率朝向预测类别,并在softmax层添加一个温度项。然后,将对抗性示例前馈到网络中,我们使用softmax输出的最大类别概率作为置信度度量。形式上,我们使用以下扰动来扰动输入, 其中L表示交叉熵损失,fθ(x) 表示 softmax 输出的预测概率,yˆ 表示预测类别。
e) 计算成本: 因此,这些方法具有与其基础结构相关的不同推断成本。事实上,熵几乎是免费的,因为它直接在神经网络输出上执行简单的操作。相反,MC Dropout是特别昂贵的,因为它需要计算多个预测。尽管需要额外的预测,但由于辅助网络的规模较小,ConfidNet仅比熵略昂贵。最后由于对抗样本的创建和推断,ODIN的成本介于ConfidNet和MC Dropout之间。

实验设置

1. 数据集:我们在三个语义分割的遥感数据集上进行实验:INRIA Aerial Image Labelling数据集[4],包含两个类别(建筑和非建筑),覆盖了不同城市的800多平方公里,分辨率为30厘米;Aerial Imagery for Roof Segmentation(AIRS)数据集[50],包含相同的两个类别,覆盖新西兰457平方公里,分辨率为7.5厘米;ISPRS Potsdam数据集[51],包含6个类别(不透水表面、建筑、低植被、树、汽车和杂物),覆盖波茨坦的3平方公里,分辨率为5厘米。初始训练集分为较小的训练集和验证集,比例为80%-20%。这允许合成所需的注释以自动评估框架。图像被切成大小为512×512的块,重叠大小为128进行处理。
2. 超参数:我们使用基于LinkNet架构的神经网络,但我们的方法对神经网络的骨干结构是不可知的。除了在注释编码研究中,注释被编码为神经网络通道的输入,使用了距离变换。对于DISCA,在交互式学习阶段,我们使用学习率2e-6进行10次随机梯度下降来优化权重,并最小化在等式1定义的损失,正则化参数λ设置为1
3. 主动学习设置:对于ODIN, 我们将扰动参数ε设置为1/255,并将温度项设置为100。对于MC Dropout, 我们在架构的每个编码器和解码器块之间添加一个dropout层,将dropout设置为0.1,并在5个不同的推断上计算方差。ConfidNet辅助网络使用Adam优化器对每个数据集进行10个时期的训练。
4. 为了自动评估主动学习组件,我们将测试图像划分为512×512的块,每个块采样一个注释,然后仅使用AC和DISCA对此块进行新的预测。对于DISCA,我们按顺序使用每个块重新训练网络。我们研究是否可以优化注释的顺序。注释生成在块的空间上最大的错误中。我们在图像中全局计算不确定性,然后通过对块的所有像素的不确定性进行平均来计算每个块的不确定性分数。我们将按不确定性的顺序的序列与随机绘制的序列进行比较,构成基线。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值