R2CNN解读

R2CNN: Rotational Region CNN for Orientation Robust Scene Text Detection,ICCV,2017

整体框架如下图所示:

        他用的数据集是文本检测的数据集ICDAR 2015:在数据集中,文字是被斜框包裹的,这个斜框可以由4个坐标点(x1,y1,x2,y2,x3,y3,x4,y4)表示,4个坐标点以顺时针方向排列,如下图所示:

        感觉没什么新的东西,也是基于faster-rcnn,就是1)rpn生成proposals多设置了一组针对小目标的scale;2)roipooling时除了7*7的尺寸,还增加了3:11和11:3的两个大纵横比的尺寸(如何将这三种尺度不一样的feature拼接在一起论文也没说,个人猜测是用faster-rcnn图像预处理时将resize在一定范围内后的padding到相同尺寸一样);3)然后是斜NMS(只在最后fast-rcnn预测出斜框时用,因为fast-rcnn预测部分之前都还是水平框;4)他的倾斜框是用两个点的坐标加一条边的长度来定义的,第一个点是左上角的点然后顺时针找第二个点,如下图所示:

        他是先rpn生成水平框去把目标都包围住,然后在fast-rcnn部分预测倾斜框,这个倾斜框的预测是有水平框的限制条件的(具体论文没细说),然后回归是水平框和斜框一起回归,这样更有利于检测斜框的精度提高。loss和faster-rcnn的一样都是l1-loss。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值