一篇14年的老论文了,按照现在的发展速度,算的上是上古时代的东西了,现在主要是参考一下当时的思想 关于特征提取器overfeat
OverFeat是早期经典的one-stage Object Detection的方法,基于AlexNet,实现了识别、定位、检测共用同一个网络框架
Overfeat 设计了一个分类和检测 定位的统一框架即使用单个共享网络完成这三个任务 关系为 分类->定位->检测
它是特征提取器 注意在deep learing 的DCNN模型使用的初期,模型往往被用来提取特征,简化特征提取方面的工作
贡献
提出一种多尺度的测试方法
使用单个共享网络完成这三个任务
分为两个版本快速版本和精确版本
其他团队的相关工作
- 直接预测要定位对象的实例化参数
- 基于ConvNet的分割来实现对象定位
过程
模型为改进版的AlexNet
通过合并最大类别得分和边界框给出最终预测 累积地添加与预测每个边界框的输入窗口相关联的检测类输出来计算的 注意论文中边界框的计算方法
思想
CNN需要较大的数据 在小数据集上可能与传统的ML算法无过多差别
对于不同的图像,卷积网可能存在一个最佳响应的输入尺度
从别的博主那里看到的
各层分布
知识点
1.offset max-pooling 一维过程
先把图像的大小填补成能被刚好池化的大小,再进行池化
好处 提供了更多的视图,保持了效率的同时,增强了鲁棒性
2.累积预测
首先对于每个 scale 计算出前 k 个类别,对每个类别计算出所有的 bouding box。
然后合并所有 scale 的 bounding box 得到集合 B
理解积累与合并 (多次对相同位置的正确判断可能减小误差?)
文章中结论
同时预测类别和边界框可能会更好
网络窗口和对象对齐越好,网络响应的置信度越强
假阳性因为缺乏边界框的一致性和置信而消失在检测阈值之下
以上只是博主的理解 和从其它博主看到的参考 可能有理解不到位的地方哈