Crowd Counting using Deep Recurrent Spatial-Aware Network 阅读体会

文章目录

本文背景

提出的方法

GFE模块

RSAR模块

本文创新

实验验证

个人体会

参考文献


本文背景

现实生活中许多应用涉及到从无约束的场景图像中计算人群,现有大多数方法解决了具有多尺度架构的人群规模变化,但仍存在两个重要局限:(1)这些方法采用了固定静态接收场的神经网络,只能处理有限的尺度变化计数,而不能适应大规模变化,并且对于不同情况下的各种尺度变化无法很好应对(2)这些方法没有考虑到在相机视角下人的旋转变化,这限制了模型对于摄像机视角变化的鲁棒性

提出的方法

本文提出了一种新颖的深度循环空间感知网络,它由两个模块组成,包括GFE(全局特征嵌入)模块和RSAR(循环空间感知改进)模块。整体思路是:GFE模块将整个图像作为全局特征提取的输入,其进一步用于估计初始人群密度图。 然后应用RSAR模块以基于空间变换器(STN)的注意机制迭代地定位图像区域,并利用残差学习来重新确定有人参与的密度图区域。 为了方便起见,我们将第i次迭代中的人群密度图表示为Mi. 注意到M0是初始人群密度图。

GFE模块

将输入的整个图像转换为高维特征图,进一步用于生成图像的初始人群密度图。 基于作者之前的工作(参考文献可见),本文以多尺度的模式设计出GFM模式。如下图所示,GFE模块由三列CNN组成,每列CNN具有七个不同内核大小和通道号的卷积层以及三个最大池化层。 给定图像I,将其输入到GFM中,将三列卷积层的输出连接到一起,提取出全局特征g。 在获得全局特征之后,我们使用内核大小为1×1的卷积层生成图像I的初始人群密度图M0,其可表示为:

                                                            

此时得到的初始人群密度图还是很粗糙的,为了进一步提高人群密度图的质量,本文提出了一种递归衰减改进(RSAR)模块来迭代地重新确定密度图

RSAR模块

该模块中由两个交替执行的组件组成:(1)空间变换器网络(STN)从人群密度图中动态定位感兴趣的区域;(2)本地改进网络使用残差学习来优化改进所选区域的密度图。 在重复n次迭代之后,将获得具有精确估计的人群数量的高质量人群密度图。

(1)选择感兴趣区域

在第i次迭代(输出的人群密度图为)中,我们首先确定用空间变换器网络重新定义某个感兴趣的图像区域。具体过程如下:

我们将(第i-1次迭代得到的人群密度图)通过完全连接层后表示为512维的特征,并将其放入长短期记忆(LSTM)层,可以表示为:

其中ci,hi是当前迭代的存储单元和隐藏状态,FC是完全连接的层。 LSTM用于捕获密度图的过去的信息和行为转换。空间变换器的变换矩阵Ti定义为:

该变换矩阵可以对输入的人群密度图进行裁剪,平移,缩放和旋转等操作,通过当前迭代的隐藏状态hi来计算得到。得到变换矩阵后,根据变换矩阵(Ti)从输入的密度图(,第i-1次迭代到的)中提取区域密度图(ri),表示为:

,ST表示空间变换器,区域映射ri通过双线性插值调整为给定大小的w*h

(2)优化密度图

在进行密度区域改进时考虑了全局背景,直观地看,全局背景包括给定图像的密度水平和密度分布。构建全局背景图的过程:通过两个堆叠的全连接层,第一个全连接层包含256个神经元,第二个全连接层包含w*h个神经元,将第二个全连接层的输出大小改成w*h,从而得到全局背景的映射)。由此,我们得到了区域密度图(ri)和全局背景图(cg)。接下来利用本地改进网络(计算区域密度图与该区域图对应的地面实况的差)在区域密度图上进行改进。网络具体如下:     

                                                                       

该网络包含三层CNN,将ri与cg的连接作为输入,计算感兴趣区域的密度残差图。最后将逆变换残差映射添加到前一轮的区域密度图,得到这一轮迭代的区域密度图,具体可以表示为

其中IST是逆空间变换器

本文创新

相较于现有的大部分方法,本文主要的创新点在于:

(1)提供了一种自适应模式,通过引入用于人群计数的空间变换模块来同时处理缩放和旋转变化的影响(将空间转换网络包含在每一个LSTM步骤中)

(2)提出了一种新颖的深度循环空间感知网络框架,可以从初始密度图中反复选择一个区域(具有可学习的比例和旋转参数),通过残差学习进行改进

(3)在4个公开挑战数据集上,本文提出方法的性能均比现有大多数方法的性能好

实验验证

在4个公开挑战数据集上,将本文的方法与最新的人群计数任务方法进行比较。 并进行了广泛的消融研究,证明了本文模型的每个组成部分的有效性。使用平均绝对误差(MAE)和均方误差(MSE)作为模型准确性的指标。

在ShanghaiTech数据集、UCF CC 50 数据集、MALL数据集、WorldExpo’10数据集上将本文的方法与MCNN方法、CP-CNN、Switching-CNN等其他方法进行比较,本文方法在MAE指标上的性能都超过其他算法。

此外本文在ShanghaiTech数据集上进行了大量的消融研究,证明了本文提出的循环空间感知网络框架的各个组成部分的有效性,包括空间变换的有效性、全局背景的有效性、迭代改进的有效性。

个人体会

这篇文章提出的深度循环空间感知网络框架,能够自适应区域选择和利用残差学习来反复对初始人群密度图进行改进,并且在4个具有挑战性的数据集上的效果均超过了大多数现有算法。对于之前提到的相机缩放和旋转的问题,本文使用空间转换网络(STN)来解决。对于提到的不能适应大规模变化的问题,本文通过将STN放在LSTM框架中反复迭代来实现。本文方法考虑了其他方法没有考虑到的问题,利用其他论文中的精华来解决,从而提高人群计数的准确率。

由于本人对于人群计数不是很了解,因此有一些小疑问:(1)对于卷积核的设计,是基于目前大家共识的参数还是都需要自己设计或者有一些自适应的算法?(2)关于图片中可能存在的其他噪音是否有解决办法?

参考文献

文本链接 参见https://arxiv.org/abs/1807.00601

全局特征嵌入模块的灵感来源 参见https://ieeexplore.ieee.org/document/7780439

https://arxiv.org/abs/1708.00953

考虑图片上下文建模的灵感 参见https://arxiv.org/abs/1707.09605

https://arxiv.org/abs/1708.00953

STN(空间转换网络)参见https://blog.csdn.net/qq_39422642/article/details/78870629

双线性插值 参见https://blog.csdn.net/qq_37577735/article/details/80041586

残差学习 参见https://blog.csdn.net/qq_30478885/article/details/78828734

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值