2018-CVPR -Scale-Transferrable Object Detection 论文笔记

最新推荐文章于 2023-03-28 16:29:04 发布

fe_ng_ji

最新推荐文章于 2023-03-28 16:29:04 发布

阅读量252

点赞数

分类专栏： machine learning 文章标签： object detection machine learning SSD

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39245207/article/details/84036038

版权

machine learning 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

1. 要做的事情

object detection

2. 提出的网络架构

3. 里面的参数

4. scale-transfer module

如下图所示：

5. detection

使用的是和SSD算法一样的思想：

5.1 SSD算法：

一种直接预测bounding box的坐标好类别的object detection算法，没有生成proposal的过程。针对不同大小的物体检测，传统的做法是将图像转换成不同的大小，然后分别处理，最后将结果综合起来。ssd利用不同卷积层的feature map进行综合也能达到同样的效果。

SSD方法基于前馈卷积网络，该网络产生固定大小的边界框集合，并对这些边界框中存在的目标类别实例进行评分，然后进行非极大值抑制步骤来产生最终的检测结果。

5.2 名词的概念

5.2.1 feature map cell：

feature map 中的每一个小格子，如下图，b图中有64个cell。

5.2.2 default box：

在每一个feature map cell都有固定大小的box，如图b，在object猫的位置上有四个box

5.2.3 prior box：

在真正训练中实际用到的default box，也就是说，prior box 小于等于default box。不是每一个feature cell的default box都会被选择。

5.3 训练

假设，每个feature 假设每个feature map cell有k个default box，那么对于每个default box都需要预测c个类别score和4个offset，那么如果一个feature map的大小是m×n，也就是有m*n个feature map cell，那么这个feature map就一共有（c+4）*k * m*n 个输出。

这些输出个数的含义是：采用3×3的卷积核对该层的feature map卷积时卷积核的个数，包含两部分（实际code是分别用不同数量的3*3卷积核对该层feature map进行卷积）：

数量c*k*m*n是confidence输出，表示每个default box的confidence，也就是类别的概率；

数量4*k*m*n是localization输出，表示每个default box回归后的坐标）。

训练中一张完整的图片送进网络获得各个feature map，对于正样本训练来说，需要先将prior box与ground truth box做匹配，匹配成功说明这个prior box所包含的是个目标，但离完整目标的ground truth box还有段距离，训练的目的是保证default box的分类confidence的同时将prior box尽可能回归到ground truth box。

通过NMS得到不断地筛选bounding box。

5.4 loss function

6. 结果

6.1 在VOC2007上的结果

6.2 在coco上的结果

7. 我的想法：

总的来说，和SSD的思路差不多，最重要的是提出了一个scale layer。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。