R2CNN解读

嘻嘻嘻大帅哥

已于 2023-08-14 09:24:22 修改

阅读量67

点赞数 1

文章标签：人工智能计算机视觉目标检测

于 2023-08-06 12:58:22 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_67619101/article/details/132129821

版权

R2CNN: Rotational Region CNN for Orientation Robust Scene Text Detection，ICCV，2017

整体框架如下图所示：

他用的数据集是文本检测的数据集ICDAR 2015：在数据集中，文字是被斜框包裹的，这个斜框可以由4个坐标点(x1,y1,x2,y2,x3,y3,x4,y4)表示，4个坐标点以顺时针方向排列，如下图所示：

感觉没什么新的东西，也是基于faster-rcnn，就是1）rpn生成proposals多设置了一组针对小目标的scale；2）roipooling时除了7*7的尺寸，还增加了3：11和11：3的两个大纵横比的尺寸（如何将这三种尺度不一样的feature拼接在一起论文也没说，个人猜测是用faster-rcnn图像预处理时将resize在一定范围内后的padding到相同尺寸一样）；3）然后是斜NMS（只在最后fast-rcnn预测出斜框时用，因为fast-rcnn预测部分之前都还是水平框；4）他的倾斜框是用两个点的坐标加一条边的长度来定义的，第一个点是左上角的点然后顺时针找第二个点，如下图所示：

他是先rpn生成水平框去把目标都包围住，然后在fast-rcnn部分预测倾斜框，这个倾斜框的预测是有水平框的限制条件的（具体论文没细说），然后回归是水平框和斜框一起回归，这样更有利于检测斜框的精度提高。loss和faster-rcnn的一样都是l1-loss。

嘻嘻嘻大帅哥

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。