crowd counting_[crowd_counting]-SFCN-CVPR2019&&GCC dataset

最新推荐文章于 2023-03-17 17:30:10 发布

weixin_39657094

最新推荐文章于 2023-03-17 17:30:10 发布

阅读量459

点赞数 1

文章标签： crowd counting

1.Contribution

（1）主要是提出了基于GTA5的GCC数据集

数据集下载地址：

https://gjy3035.github.io/GCC-CL/gjy3035.github.io

（2）提出了在如何在GCC上train，然后在传统的通用数据集上test的迁移学习方案，方案基于Cycle GAN，提出了SE Cycle GAN

（3）也提出了他们自己的counting模型SFCN，不过该模型本身不是亮点

2.GCC dataset

提出GCC数据集的目的是当前已经有的数据集图片数量太少，很容易overfitting，基于GTA5场景制作出的GCC数据集，拥有丰富的场景，大量的图片。

（1）场景的选择

基于GTA5，选择了100个地点，然后每个地点通过改变相机的位姿，最终获得400个场景，然后通过不同的ROI获得不同的图片

（2）人模型的设计

选择了265个人的模型，每个人的模型有不同的肤色，性别，形状，然后又衣服，发型等6个不同的外观参数，在场景中采用随机的动作

（3）场景合成

原始GTA5每个场景不超过256人，为了产生人多的图片，需要进行场景合成，就是将不同场景下的人拼到一块儿

最终人数分布如下：

（4）添加了不同环境因素

通过设置不同的时间因素，以及天气因素，产生不同的环境：

（5）如何利用GCC数据集

①先在GCC在pretain，然后在其他数据集上进行fine-tune，有点在利用在ImageNet上pretrain模型的意思

②在GCC上train，然后直接在其他数据集上，不过中间利用了SE CycleGAN去将GCC的图片色调改成了测试数据集的风格，才去train，和test

3.SFCN

（1）模型配置

为了进行counting，本文也提出了自己的counting模型SFCN（Spatial FCN）：

就是一个简单的单列全卷积，encoder-decoder的结构

提出了采用两种不同backbone的模型，这里有个特殊的部分为Spatial Encoder结构，是《Spatial as deep: Spatial cnn for traffic scene understanding》这篇paper中提出的，具体看那篇paper

基本上backbone+Dilation conv+spatial encoder+upsample4个结构

采用1e-5的lr，Adam+MSE

（2）ablation study

①在GCC上训练的情况，采用了三种不同的训练集测试集划分方法：

第一种是75%train，25%test，第二种是每个场景（共4个相机），1个相机用来test，其他3个用来train，第三种是以场景为单位，75个场景做train，25个场景做test

②在GCC上pretrain，在其他数据集上fine tune

感觉如果不用ResNet做backbone，效果不如用了ImageNet的CSRNet

4.SE CycleGAN & DA

DA是domain adaption，就是领域自适应，有点像迁移学习，要在让在数据集A上train的模型，更好地在数据集B上test，本文要做到的就是如何在GCC上train，然后在其他数据集上获得更好的效果

之所以要提到DA这个概念是因为GTA的图片太卡通了，相比于实际场景，有一定Gap

（1）SE Cycle GAN

本文采用SE CycleGAN，其实就是给CycleGAN添加了SSIM的loss

根据CycleGAN的原理，GCC的图片要通过一个Generator，产生于另一个数据集风格相似的图片，并让对应的distriminator去判断，然后又用另一个Generator转变回来，期望转变过去又转变回来的图片跟原来的图片越相似越好，

同理，另一条路是从另一个数据集转变到GCC的风格，再转变回去，采用的loss如下：

LGAN是Discriminator判断的loss，Lcycle是转变过去又转变回来的比较相似度的loss，λ是多少没说

因为要比较图像相似度，参考SANet采用SSIM作为loss，本文引入了SSIM作为loss，将CycleGAN转变为SE CycleGAN：

μ设置为1

用了SE CycleGAN风格转换结果如下：

（2）Density/Scene Regulation

Density Regulation，为了防止density map某些点预测了很大的值这种现象，本文设置了density map每个点出值得上限，超过这个上限，就把这个点设为0

Scene Regulation是对于不同的测试数据集，比如WorldExpo10，其人数不超过500，那么在GCC中也要选择少人数的场景图片进行train

（3）ablation Study

①用不用CycleGAN进行风格转换的对比

发现如果没有Density/Scene Regulation，加了GAN反而效果变差了，可能是因为加了GAN导致图像变模糊，带来了一些细节的丢失

5.评价

本文最大的亮点在于提出了GCC数据集，在这上面pretrain是否能取代ImageNet，似乎持保留意见，不过对于容易overfitting的counting社区来说，确实是一个不错的数据集

weixin_39657094

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
crowd counting_[crowd_counting]-SFCN-CVPR2019&&GCC dataset

1.Contribution（1）主要是提出了基于GTA5的GCC数据集数据集下载地址：https://gjy3035.github.io/GCC-CL/gjy3035.github.io（2）提出了在如何在GCC上train，然后在传统的通用数据集上test的迁移学习方案，方案基于Cycle GAN，提出了SE Cycle GAN（3）也提出了他们自己的counting模型SFCN，不过该模型...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。