【论文阅读】Bayesian Loss for Crowd Count Estimation with Point Supervision

这篇论文是评估在一个人群场景中估计总的人数。广泛使用的人群计数基准数据集有UCF-QNRF 、ShanghaiTech 、UCFCC50 。

数据集标注的是图片中人头的点标注。这些点标注只包含一个像素,并且不包含对象的形状和大小信息,因此直接拿来训练是困难的。

主要思路是使用高斯核将人头的点标注转换为带有ground truth的密度图,将它作为训练的target,学习这个target训练一个密度图估计器。但是实际场景中,由于遮挡,物体形状的变化,这种带有ground truth的密度图是不完整的。因此作者提出构造密度贡献概率的新颖损失函数Bayesian Loss来对每个点标注的计数期望值采用可靠的监督。

The Proposed Method

这是一个密度图;Xm是2D pixel的坐标;M是密度图的像素数;

表示样本图像中的点注释图;n={1,2,...N};N是总人数;Zn是头点的位置;Yn=n表示相关的标签

将真值ground truth点标注通过高斯核转换为带ground truth 的密度图

并使用以下损失函数训练密度估计器:

F()是距离函数,

假设数据集中所有的人都有同样的头部大小和形状,则可以Gaussian kernel 设置为一个固定大小,显然这和实际情况是不符的;另一种解决方案是为每一个n设置一种自适应Gaussian kernel:

d n​ 是一个距离,取决于其所在空间域的最近邻点,它假定人群是均匀分布的

Bayesian Loss

设x为表示空间位置的随机变量,y为表示标注的点的随机变量。在以上讨论的基础上,我们不以Eq.(1)生成的“ground truth”密度图作为学习目标,而是根据所给的标签yn提出构建xm的似然函数。

根据贝叶斯定理,给定密度图中的像素位置xm,xm具有yn标签的后验概率可以计算为:

在上面的推导中,第三个等式成立,因为我们假设每个类别标签y n 的先验概率相等,即p(yn)相等,P(yn)=1/N。

利用后验标记概率p(yn|xm)和估计密度图Dest。我们得出Bayesian loss如下:

令cmn表示xm对yn的贡献,而cn是与yn相关的总数,我们对cn的期望为:

显然,每个注释点的真实计数cn为1,因此我们具有以下损失函数:

其中F(·)是距离函数,在实验中采用l1距离。 当训练图像中没有物体时,应处理特殊情况。 在这种情况下,直接将密度图的总和强制为零。 建议的损失函数是可微的,可以使用标准的反向传播训练算法轻松应用于给定的CNN。

在推断阶段,不必事先知道后标签概率p(yn | xm),因为当我们对估计的密度图求和时,我们消除了p(yn | xm),如下所示:

背景像素建模

对于远离任何注释点的背景像素,将它们分配给任何头标yn都是没有意义的。 为了更好地对背景像素建模,在头标签{yn = n:n = 1,2,...,N}的基础上引入了额外的背景标签y0 = 0。 然后,后标签概率可以重写为:

p(yn) = p(y0)=1/N+1

每个人和整个背景的预期计数定义为:

希望背景计数为零,并且每个注释点的前景计数等于1,因此,具有以下增强的损失函数:

为了定义背景似然性,我们为每个像素构造一个虚拟背景点:

其中zmn表示xm的最接近的起点,而d是控制起点和虚拟背景点之间的边距的参数。 如图1所示,对于定义的虚拟背景点zm0,对于远离头点的像素xm,可以将其分配给背景标签。

在这里,我们还使用高斯核来定义背景似然性:

后验可以大致确定人与人之间的界限:

•密集人群区域比稀疏区域具有更高的熵值。

•通过比较(b)和(c),参数σ控制后标签概率的软度。

•通过比较背景像素建模(b)和(e),可以更好地处理远离人群的像素。

•参数d控制前景和背景之间的裕度,比较(e)和(f)。

人群计数估计方法通过两种广泛使用的度量标准进行评估:

其中K是测试图像的数量,Nk和Ck分别是第k个图像的真实计数和估计计数。

实验细节:

使用随机裁剪和水平翻转来扩充训练数据。UCF-QNRF中的图像分辨率从0.08到66M像素变化很大。 但是,由于常规CNN的接收场有限,因此无法处理各种比例的图像。 因此,我们在UCF-QNRF中将每个图像的较短边限制在2048个像素内。 然后随机裁剪图像进行训练,对于图像分辨率较小的ShanghaiTechA和UCF CC 50,裁剪尺寸为256×256,对于ShanghaiTechB和UCF-QNRF,裁剪尺寸为512×512。

使用VGG19和AlexNet,将最后一个池化层和随后的完全连接层给删除,通过双线性插值将主干网络的输出上采样到输入图像大小的1/8,然后将其馈送到回归标头,标头分别由256和128通道的3*3卷积层和1*1卷积层,得到密度图。 回归头由MSRA初始化器初始化,主干在ImageNet上进行了预训练。 初始学习速率为10-5的Adam优化器用于更新参数。

Effect of σ. σ控制后标签概率的软度;贝叶斯算法在各种σ值下都表现良好。 当σ从0.1变为32.0时,MAE和MSE小于98.0和180.0。BASELINE对此参数更敏感,其MAE和MSE分别从118.4到136.2和192.3到250.6。 Effect of d. 控制前景和背景之间的余量。当d为图像短边的3%至100%时,BAYESIAN +始终优于BAYESIAN。参数d的含义是,d的大小不会超过d,因此d不能太小。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值