叮咚,前文已经简单的介绍了一些,下面进入第一个算法——R-CNN。
在计算机视觉领域有一个神一样存在的竞赛——ImageNet大赛,各种各样的优秀算法差不多都首先初现在大赛上。讲深度学习应用于计算机视觉最早可以追溯到2012年,在此次大赛上,卷积神经网络CNN一炮走红,成功击败了DMP(可变组建模型,被称为传统目标检测算法最后的辉煌!)。基于此,Ross大神趁火打劫,率先提出了区域卷积网络目标检测框架(R-CNN)。由此,目标检测鸟枪换大炮,正式拉开了基于深度学习的目标检测研究大幕,目标检测算法结束了传统,“GPU暴力美学”时代到来。
首先我们先来看一下论文《Rich feature hierarchies for accurate oject detection and semantic segmentation》(百度云链接:https://pan.baidu.com/s/12pESnsHbFi8ktfIxu729_A,提取码:e84a),这便是Ross Girshick大神于2014年发表的论文,由此提出R-CNN。
一、原文解读
(并非逐字逐句翻译)
过去几年,在PASCAL数据集上目标检测的效果已经达到了一个稳定的效果,并且总结出了一个发展方向:融合多种低维度的特征