Bayesian Multi Scale Neural Network for Crowd Counting 阅读笔记

1.面临问题:

人群计数在计算视觉领域很重要但是也很困难的问题。在图像上基于密度图估计的卷积网络在这个领域取得了巨大的成功。然而,密集的人群计数仍然是一个开放的问题,因为严重的遮挡和透视图中,人们可以出现在不同的大小。在这项工作中,使用ResNet做特征提取,提出一种新的网络,下采样使用空洞卷积(dilated convolutions),上采样模块使用反卷积( transposed convolutions)。我们提出了一个聚合模块,使得我们的网络在透视图问题(perspective view problem)上具有鲁棒性。我们展示了优化的细节,损失函数和算法在我们工作中的使用。使用MSE和MAE做为评价指标,在ShanghaiTech,UCF-CC-50和UCF-QNRF数据集评价。我们的方法达到最优然当用有原则的贝叶斯方法给出不确定性估计。


2.本文贡献:

本文主要贡献总结如下:
1、 我们基于ResNet做特征提取器提出了一个新的模型结构,下采样部分使用空洞卷积层,上采样部分使用反卷积层。
2、 我们展示了层级的细节,一个新的聚合模块,优化细节,损失函数,评估度量和算法在本项工作中的使用。
3、 在ShanghaiTech,UCF-CC-50和UCF-QNRF数据集使用MAE和MSE作为评价度量方式,我们的模型使用更小的参数量在性能上达到最优。
4、我们的网络在给出图像中出现的人数的同时,也给出了认知不确定性任意不确定性量化


3.本文方法:

3.1数据集

评估实验使用的是三个公开的人群计数数据ShanghaiTech,UCF-CC-50和UCF-QNRF,这些数据集的描述如下:
在这里插入图片描述

3.2 模型结构

Where 1×1, 3×3 denotes Filters, 64, 128, 256 denotes Recpetive Field, conv denotes DilatedConvolutional layer and conv-2 denotes Transposed convolutional layer

该网络结构由一个基于ResNet的特征提取器和使用空洞卷积定义的下采样模块组成。这有助于提取不同尺度下物体的细节,从而解决早期方法所面临的透视问题(perspective view problem)。接下来,上行采样块使用反卷积,并在两者之间跳过连接,从而创建一个额外的路径。
最后的一部分有三个头部:密度图的输出,当积分时给出绝对计数;认知不确定性(epistemic uncertainty)头部;任意不确定性(aleatoric uncertainty)头部。

3.3优化

在对网络进行训练时,出现了连接的【ie】权值为零的消失梯度问题。为了解决这个问题,在卷积和反卷积中使用IN(instance normalization)。定义如公式(1):
在这里插入图片描述
先前的一些工作为了处理物体可能出现在图像中的各种尺度,使用多列的网络结构。这些方法的问题在于,列的数量直接衡量了它识别单个对象的尺度。为了解决这个(To tackle this),我们提出了一种新的计数去融合1X1,3X3,5X5这些尺度上的filters。在每个卷积层和反卷积层后使用ReLU激活。这个filter分支使得我们的网络具有鲁棒性并且可以使用更多的filter去扩展来处理密集场景中的人群计数。我们的聚合模块堆叠在彼此之上,表现得像一个整体,从而最大限度地减少深度网络的过度拟合问题。我们工作中使用的新型聚合模块Figure2所示:
在这里插入图片描述
在这里插入图片描述

3.4损失函数

大多数现有的工作使用像素级的Euclidean loss训练网络。这给出了一个像素级估计误差的度量,定义在Equation2中。
在这里插入图片描述
在这里插入图片描述
我们还在损失中加入了SSIM指数,以衡量预测与真实情况的偏差。图像质量评价采用SSIM指数。它通过三种局部统计量,即均值、方差和协方差来计算两幅图像之间的相似性。SSIM值从-1到1,当两幅图像相同时,SSIM值等于1。Equation 3定义了SSIM指数
在这里插入图片描述
在这里插入图片描述

3.5评估

对于人群计数,计数误差有两个度量标准,平均绝对误差(MAE,Mean Absolute Error)和均方误差(MSE,Mean Squared Error)。
在这里插入图片描述

3.6不确定性估计(Uncertainty Estimation)

模型预测的不确定性主要有两个来源:认知的不确定性(epistemic uncertainty)是由于我们缺乏知识而产生的不确定性,而任意的不确定性(aleatoric uncertainty)是由于数据中存在的随机性。认知的不确定性通常被称为模型的不确定性,给足够的数据就可以解释它。利用贝叶斯神经网络,将权值参数化为分布而不是点估计,可以计算出认知的不确定性。
然而,人群计数需要理解数据的内在细微差别,如遮挡、尺度模糊等,因此任意的不确定性也很重要。为了在神经网络中捕捉认知的不确定性,我们将先验分布置于其权重之上。考虑到这一点,不确定性可以估计使用损失函数定义在Equation8,其中的目标是最小化负对数似然(negative log likelihood)。
在这里插入图片描述

3.7算法

在这里插入图片描述
在这里插入图片描述


4.实验结果:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

总结:

在本文中,我们提出了一种基于ResNet的特征提取器和一种新的特征聚合模块的人群计数网络。下行采样块使用空洞卷积层,上采样使用反卷积层。跳过块之间的连接可以创建额外的路径,从而防止过拟合。我们显示优化细节,损失函数和算法在这工作中使用。我们的方法在使用MSE和MAE作为评价指标的3个公开数据集上优于现有最优的方法。我们的方法也给出了一个不确定性度量,从而解决了神经网络的黑箱问题。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
主动贝叶斯多类映射是一种利用距离信息和语义分割观测进行地图构建的方法。在这个方法中,我们将地图划分为多个离散的类别,并使用激光雷达等传感器获取的距离信息和语义分割图像作为输入。 在这个方法中,我们首先使用激光雷达等传感器获取环境的距离信息。然后,我们将距离信息和语义分割图像结合起来,得到一个综合的观测结果。这个综合的观测结果包含了地图上每个像素点所属的类别信息以及该像素点与激光雷达的距离。 接下来,我们应用主动贝叶斯方法来进行多类映射。首先,我们定义每个类别的先验概率。这些先验概率可以通过建立训练集并对其进行统计分析得到。然后,我们利用贝叶斯定理来计算给定观测结果下每个类别的后验概率。通过比较后验概率,我们可以确定每个像素点所属的类别。 在多类映射过程中,我们可以使用主动探索策略来提高地图构建的效果。主动探索策略可以根据当前地图的不确定度来选择下一个最有信息量的观测位置。通过这种方式,我们可以在有限的观测次数内尽可能准确地构建地图。 总结起来,主动贝叶斯多类映射方法利用距离信息和语义分割观测进行地图构建。它通过先验概率和后验概率的计算来确定每个像素点所属的类别,并利用主动探索策略来提高地图构建的效果。这种方法可以应用于自动驾驶、机器人导航等领域,为智能系统提供准确的环境感知和地图信息。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值