PVANET: Deep but Lightweight Neural Networks for Real-time Object Detection - arxiv 2016.08

最新推荐文章于 2024-10-20 22:08:32 发布

JessieCode

最新推荐文章于 2024-10-20 22:08:32 发布

阅读量210

点赞数

分类专栏：计算机视觉论文

计算机视觉论文专栏收录该内容

27 篇文章 1 订阅

订阅专栏

PVANET: Deep but Lightweight Neural Networks forReal-time Object Detection, arxiv 16.08

论文地址：https://arxiv.org/pdf/1608.08021v1.pdf

code（github）: https://github.com/sanghoon/pva-faster-rcnn

(想不到作者居然这么快开源了，撒花）

=====

根据作者开源的model，pt文件，和代码等，

笔者跑了`example_train_384`这个实验（具体看上面的开源代码下的` models/pvanet/example_train_384`），其结果如下：

trainset： pascal voc 07 trainval-set

testset： pascal voc 07 testset

mAP：71.81%

stepsize：5w

iterations：10w

lr policy：step

另外把stepsize改为8w，itrations改为11w，其mAP为72.6%，这个比vgg16的69.6%要好。

还跑了trainset为pascal voc 0712的trainval，其中（5w/10w，分别为stepsize和iterations），mAP为73.6%，这个比vgg16的75.8%要低。

=====

更新

跑trainset为pascal voc 0712的trainval，其中（32w iterations，iter_size为3，采用plateau lr policy：2w，3w，4w，5w），mAP为77.15%，这个比vgg16的75.8%要高。

跑trainset为pascal voc 0712的trainval，其中（32w iterations，iter_size为3，采用plateau lr policy：2w，3w，4w，5w，global context branch），mAP为78.38%，这个比vgg16的75.8%要高。

=====

最新的图

=====

具体可以参考The Mean AP is 0.7190 when I test the model trained by example_train_384, is normal? #10。

=====

先看leaderboard

再看下speed

厉害的不要不要的。

=====

转正题，下面介绍下这篇论文，

老规矩，上图。

一句话：

利用目前各种设计network的方法，如batch normalization，inception，C.ReLU，residual connection，multi-scale representation等，设计一个deep，but thin的feature extractor network，然后在这个feature extractor network上把faster-rcnn的rpn和rcnn接上，得到一个完整的detection deep network，并用了SVD分解来降低fc的纬度，以及用较少的proposals（200个），在pascal voc上取得傲人的performance（mAP&speed）。当然其中也用到了一些训练技巧，如learning rate scheduling[1]。

而该论文的最重要的一个贡献就是第一个用Inception来做detection，不论是accuracy还是speed，都充分证明了其适合用于detection，而不仅仅是classification。

=====

先看framework