【论文快读】R-CNN(2013)

标题:Rich feature hierarchies for accurate object detection and semantic segmentation
链接:https://arxiv.org/abs/1311.2524
作者:Ross Girshick等
摘要:
这里写图片描述
传统的目标检测方法是通过集成系统把低级别的图像特征和高级别的文本相组合。CNN在经典的classification task上做的已经足够好了,但是在object detection上的工作依然是个空白。本文提出,CNN的表现依然可以优于传统的HOG等方法。
本文提出的R-CNN方法基于两点:1大容量的CNN可以用来自底向上地定位和分割区域。2当标签数据很稀疏时,有监督预训练+fine tuning可以达到很好的效果。
由classification到localization增加了检测边缘的部分,这可以视作一个回归问题,但精度很低。借助CNN构造滑窗detector(通常为2个卷积池化层)可以大大提高精度,作者经过各种优化尝试,最终将CNN定位问题作为“recognition using regions”来处理:
首先从input图片取出2000多个不同大小的框,每个框经过affine变换成相同的size后过一遍CNN,得到2000多个固定长度的特征,利用线性svm做2000多个分类。
对于scarce label的问题,首先在辅助数据集中做有监督预训练,然后在小数据集上做fine tunning,原因是图像特征的提取在卷积池化层中完成,但这些特征并不会因为数据集的变换而产生根本性的区别。这样做的结果比传统的HOG方法精确的多。

目标检测

网络结构:
1 选框:今年提出了很多方法,这里采用了selective search。
2 特征提取:5个卷积层和2个全连接层,框经过warp成227*227的rgb,输出是4096维向量。
3 分类:对svm的打分结果进行贪心非极大抑制处理。

训练:
1 在一个完全无关的数据集上对CNN进行预训练,得到一个性能优异的CNN。
2 对1中得到的CNN采用SGD在前述框中进行训练,输出由1000个类调整为21个类,学习率0.001,mini-batch size 128(32个正类+96个负类)。

语义分割

作者采取了三种特征进行语义分割:
1。前述的直接拉伸框
2。仅仅保留前景mask
3。1和2的组合
经过实验发现策略3可以获得更高的精度,但是我觉得和三种方法o2p差别不大,其实并没有做到惊异,或者说能和o2p做到同等水平就已经很优秀了?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值