R2CNN 算法笔记

R2CNN是一种针对旋转文本检测的算法,基于Faster R-CNN改进,增加了对倾斜文本框的预测。文章提出两种ROI尺寸以适应不同方向的文本,并设有三个预测支路:文本存在与否分类、水平框和倾斜框预测。倾斜框的定义和NMS处理是关键,以确保稳定性和准确性。实验结果显示R2CNN在IDCAR数据集上表现优秀。
摘要由CSDN通过智能技术生成

论文:R2CNN: Rotational Region CNN for Orientation Robust Scene Text Detection
论文链接:https://arxiv.org/abs/1706.09579

这篇文章提出了R2CNN(Rotational Region CNN)算法解决旋转文本的检测。

Figure2是R2CNN算法的整体结构,主要是在Faster RCNN算法的基础上做了一些修改:1、ROI Pooling时的尺寸除了7*7外,还有两种长宽不一致的尺寸:3*11和11*3,这种设置的用意也非常明显,就是为了解决水平和竖直长文本的检测。然后对于提取到的ROI特征做cancat操作进行融合作为后续预测支路的输入。2、预测输出有3个支路,第一个支路是有无文本的二分类,这个和目标检测算法中的目标分类类似。第二个支路是水平框(axis-aligned box)的预测,这个和目标检测算法中的框预测一样。第三个支路时倾斜框(inclined box)的预测,这部分是这篇文章的亮点,而且该支路后面跟一个NMS进行处理得到最后结果。至于RPN网络部分输出的ROI则和常规目标检测中RPN网络输出的ROI一样,都是水平方向。另外这篇文章其实还增加了一些小尺寸的anchor提升对小文本的检测效果。所以R2CNN算法最后既有常规的水平预测框输出,也有倾斜框输出,这两种框都是基于RPN网络输出的ROI得到的,虽然倾斜框支路也能预测水平框,但是作者认为第二个支路的存在对最后结果帮助较大。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值