crowd counting_[crowd_counting]-SFANet-arxiv1902

33ec3e47c5e86394c31a09866a41d186.png

1f888fb9c592b94050a9bea1a1cd5b41.png

1.Network

aaa95df279c6c4fa1e76a45d7aa82d10.png
图1 模型结构总览

(1)backbone用了VGG16,用了BN

(2)整个结构跟UNet很像,上采样没说用的什么

(3)T和H的结构如下:

通过1x1的卷积来减少参数量

1f975e39b361e3f11c127d958d3641f6.png
图2 T和H模块内部结构图

2.Contribution

其实idea层面上,这算是对segmentation的mask的最典型的应用了,应当等多地关注训练细节

(1)counting ground truth的制作

采用μ=15,σ=4的统一大小的高斯核

5fb1ee3b3d7e332d847489c99f3d9918.png

(2)segmentation的ground truth的制作

对counting ground truth再进行高斯模糊,

μ=3,σ=2,然后进行阈值过滤,即二值化

004a350925b2b082687e1cd4e33410aa.png

阈值th=0.001

(3)训练数据的处理

先将图片进行resize,如果短边<512,就使短边scale到512,如果>512,就不resize,

再进行[0.8,1.2]的随机的scale处理

再随机crop出400x400的patch

然后以0.5的随机概率进行水平翻转

然后进行gamma contrast transfermation,参数范围[0.5,1.5],概率为0.3

以0.1的概率随机将彩图变黑白

(4)模型参数初始化

除了pre-train的部分,其余部分用N(0,0.01)的高斯分布初始化

(5)loss

Counting loss:

d99f84904a54d9d5bc7b4606d363c7a9.png

Segmentation loss:

de7184fb3ea013fc0cc0fd81cf0d29b3.png

最后加起来:α=0.1

083b0f2a5d6828f3478c2e7ed6cfba77.png

3.Experiment

(1)在ShanghaiTech上的结果

9f459aab2715f51bd8b0a2018a147a3d.png

(2)UCF_CC_50

e4d84a1baf0526a0a586b98ed91d1d44.png

(3)UCSD

9d4bbc54646c31ec2bb8cd2c3006e60b.png

4.评价

我挺想复现一下这个paper,可是目前没有可用服务器QAQ,不过这篇paper采用的方法跟我之前自己实验的方法很像,只是我没有用那么多数据增强的方法,导致我自己实验效果差很可能使trainingdb本身d的问题。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值