【论文阅读】Active Learning for Deep Object Detection via Probabilistic Modeling

Choi J, Elezi I, Lee H J, et al. Active Learning for Deep Object Detection via Probabilistic Modeling[J]. arXiv preprint arXiv:2103.16130, 2021.

摘要

本文的方法依赖于混合密度网络,这个网络能够估计每个定位和分类头输出的概率分布。本文通过单模型的前向传播来估计偶然不确定性和认知不确定性。本文的方法通过一个评分函数来总结这两种类型的不确定性设为两个部分来获取每张图像的信息量分数。

本文在PASCAL VOC和MSCOCO数据集上验证了方法的有效性。提出的方法性能优于基于单模型的方法,并且在计算成本方法与基于多模型的方法相比大大减少。

介绍

不确定性的预测可以拆分为偶然不确定性和认知不确定性两个方面。偶然不确定性是指数据的固有噪音,比如传感器噪音或是图像特征的遮挡或是缺失。认知不确定性是由于模型本身的能力所限并且与训练数据的密度成反比。在主动学习中建模并且区分这两种不确定性是十分重要的。为了计算这两种不确定性,学者们会用基于多模型的方法,比如集成方法或者MC dropout。然后对于基于多模型的方法往往需要较高的计算代价,而对于集成来说,这更增加了网络的参数量。另外,这些方法只依赖于分类的不确定性,完全无视了定位的不确定性。

本文的方法通过单模型的单次前向传播,相比于基于多模型的方法显著的减少了计算代价。另外,提出的模型达到了很高的精确度。本文的方法使用了基于定位和分类的偶然和认知不确定性。如图所示,我们的方法基于混合密度网络来对于每个网络的输出学习高斯混合模型(GMM)。为了更有效的训练网络,本文提出了一个损失函数作为不一致数据的正则器,来使模型更加健壮。提出的方法通

过结合图像中每一个目标的基于定位和分类的不确定性来评估每张图像的信息量得分。因为从经验上来说,对于分类的不确定性和定位的不确定性在提高精确度上是同等重要的。

本文的方法表现优于基于单模型的方法,并且对于基于多模型的方法,本文的方法可以达到相似的精确度但是大大减少了计算代价。

本文贡献如下:

本文提出了一个新型的适用于目标检测的深度主动学习方法,这个方法通过同时考虑定位以及分类的信息来评估相应的偶然不确定性和认知不确定性。这个方法是有效的并且使用单模型的单次前向传播。

本文提出了一个新型损失函数来训练基于GMM的目标检测网络,这也能提高了网络的整体性能。

本文在两种不同的数据集上验证了所提方法的有效性。

对于目标检测的主动学习

本文方法的关键新颖之处在于设计输出神经网络层来预测概率分布,而不是为每个输出预测一个值网络。为此,我们建议利用混合密度网络,其中输出网络由 GMM 的参数组成:均值µ k、方差 Σ k和第 k 个的混合权重 π k对于GMM 的第k个组成部分。给定这些参数,我们可以估计任意 u al偶然不确定性和u ep认知不确定性。

混合模型的目标检测

先介绍定位任务,然后再拓展到分类任务。

提出的方法既适用于单阶段,也适用于两阶段的目标检测。

定位:

Bounding box b是通过它的中心位置(x和y),以及长和宽(h和w)来定义的。本文设计的混合模型用来预测每个bounding box的三组参数:the mean (µˆx, µˆy, µˆw, and µˆh), the variance (Σˆ x, Σˆ y, Σˆ w, and Σˆ h), and the weights of the mixture (πˆx, πˆy, πˆw, and πˆh)。

设本文网络的bounding box的输出为,对于每个bounding box的坐标的有K个模型的GMM的参数的获取如下:

π是每个组件的混合权重,μ是每个bounding box的输出的预测值,∑是每个表示偶然不确定性的坐标的方差。这里,本文用softmax函数来保持π的概率分布,即和为1,用sigmoid函数来满足对于方差的大于0的要求。

定位损失:

传统的bounding box回归损失,使用smooth L1 loss,这只考虑了预测边界框和真实边界框的坐标。因此,他并没有考虑边界框的偶然不确定性。对于训练用来定位的混合密度网络,本文提出了一个基于负对数似然损失(negative log-likelihood loss)的定位损失函数。我们的损失函数将GMM的参数回归到正例的边界框的偏移的位置处,中心(x,y),宽度(w),长度(h):

这里小L是预测的边界框,N是正例匹配的数量,gˆ j b指第j个GT框,λij是一个预设框和GT框的指示器。在实验中,ε设为e-9为了对数函数的数值稳定性。

分类:

然后是目标检测的分类模块。本文对每一类的的输出进行建模作为GMM。本文的方法对于每个类的平均值和方差进行评估,以及作为GMM的每个组件的混合的权重。本文对于GMM的每个组件的处理和上文定位的一致,通过应用高斯噪声和方差∑到平均值μ来获得第i个边界框的类的概率分布:

分类损失:

为了训练分类的混合密度网络,本文提出了一个损失函数,它考虑了anchor box 和GT box的IOU以及难负例挖掘(hard negative mining)。精确的来说,本文通过结合两个表示正例样本和负例样本的贡献来构建分类损失:

这里C是类别的数量,带着0的表示background class,N是正例的数量,cˆ ik g是第i次匹配的GT class,M是难负例挖掘比例。并不会用所有的负例匹配,本文用提出的混合分类损失来将其进行排序并且选择top M*N个作为最终训练用的负例匹配。在实验中,将M设为3。

最终损失:

本文用混合密度网络定义一个全面的损失来训练目标检测器:

这里N是正例匹配的数量。

这里可以通过求和混合模型的组件来计算bounding box的坐标Rb和每个类别的置信度Pi:

提高参数效率

为了预测输出值的概率分布,本文的方法包括修改网络的最后一层并且因此增加了参数的数量,尤其是对于分类来说。更精确的话,对于一个尺寸为F*F的输出的特征图,有C个类别,D个anchor boxes,并且每个边界框都用四个坐标来定义,那么对于用来计算有着K个组件的GMM而添加的新层的定位的参数量就为F*F*D*(4*3*K),分类的参数量有F*F*D*(C*2*K+K)个。这里可以看到分类的参数量是与类别的数量成比例的。

在这一节中,本文致力于通过减少分类部分的参数量来提高算法的效率。就像图2b所示,本文省去了计算方差这个问题,将参数量减少到了F*F*D*(C*K+K)。而且,本文用cˆ i p = Sof tmax(µ i p ),并且用他们来计算偶然不确定性:

这里diag(q)是一个由向量q和组成的对角矩阵。这种情况下,ual就是一个C*C的矩阵,它的对角元素表示偶然不确定性。 

最终,本文修改了分类的损失用来更参数有效的训练模型:

这里所有的参数都和上文的一致,除了类别的概率。

评分函数

主动学习中的评分函数对于每个图像都会输出一个值来表示它的信息量。本文的评分函数通过累计图像中每个bounding box的每个参数的偶然和认知不确定性来评估图像的信息量。

具体的说,设U = {uij}为一组图像不确定性值(偶然和认知),这里uij是第i张图像的第j个目标。对于定位,uij是4个bounding box输出中的最大值。本文首先通过z-score正则化方法正则化这些值进行补偿,因为这些bounding box的坐标的值是没有限制的并且每个图像的不确定性都可能会有一个不同的值的范围。然后把检测目标的最大的不确定性赋给这张图像。从经验来说,采用坐标和目标的最大值表现的性能更有益相比于取平均值。 

通过上述描述的算法,可以得到每个图像的不同的正则化的不确定性:偶然不确定性和认知不确定性,u=。剩下的部分就是将这些得分结合成单个值。本文探索了不同的计算不确定性的score函数的结合方法,包括取平均或者取最大值,就像其他的主动学习研究。在下面的实验中可以看到取最大值可以取得最好的结果。 

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值