【论文】R2CNN: Rotational Region CNN for Orientation Robust Scene Text Detection

最新推荐文章于 2023-07-25 11:01:45 发布

小李AI飞刀^_^

最新推荐文章于 2023-07-25 11:01:45 发布

阅读量2.3k

点赞数 1

分类专栏：文献阅读文章标签：目标检测人工智能计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/MLH7M/article/details/121539993

版权

文献阅读专栏收录该内容

9 篇文章 2 订阅

订阅专栏

【总结】以Faster R-CNN为基础：

①使用区域建议生成网络RPN生成包围文本的水平边界框；

② 对预测出的每一个水平边界框，提取其不同池化尺寸的池化特征，同时利用聚合特征预测文本/非文本得分、水平边界框和最小倾斜框；

③利用倾斜非极大值抑制NMS获得最终结果。

一、引言

主要成果：

引入了一个新的用于任意方向场景文本的检测框架。RPN用于生成水平候选框，改进后的Fast R-CNN用于分类和倾斜框的预测优化；
将任意方向的文本检测转化为一个多任务问题。该方法的核心是对文本得分、水平框和最小倾斜框的预测；
为了充分利用文本特征，对每个RPN候选框进行了多个尺寸的ROI池化，然后连接特征用于检测；
在Faster R-CNN的基础上增加了一个更小的anchor用于检测小文本，并使用倾斜非极大值抑制对候选结果进行后处理。

二、方法

1. 问题定义

倾斜目标表示方法：

（x1,y1,x2,y2,x3,y3,x4,y4）从左上角开始顺时针的四个点坐标，但有可能不是矩形；倾斜的矩形可以覆盖绝大部分的文本区域
（x1,y1,x2,y2,θ）：带角度的矩形框，但是角度信息不稳定，易混淆
（x1,y1,x2,y2,h）：从左上角开始顺时针的两个点坐标及高度，本文使用的表示法

2. 旋转区域CNN (R2CNN)

（1） RPN预测水平边界框

水平框的文本大概有以下几种情况：①垂直方向；②水平方向；③对角线方向， RPN能够为任意方向的文本生成水平框形式的文本区域；
针对小的文本场景，使用小尺寸的anchor：方式①是将Faster R-CNN原本(8, 16, 32)的anchor尺寸变换为更小的(4, 8, 16）；方式②是在原anchor的基础上增加更小的尺度，即(4, 8, 16, 32)，本实验证明方式①的效果更好

（2）不同池化尺寸的ROI Pooling

使用三种不同尺寸的ROI Pooling捕获更多的文本特征，用于后续的文本检测：7×7，11×3（垂直方向），3×11（水平方向）

（3）文本/非文本得分、水平框以及倾斜最小框的回归

基于RPN产生的候选框进行回归预测（同时预测水平和倾斜的，每个倾斜框都有一个水平框与之对应）

（4）倾斜的非极大值抑制

inclined NMS：两个倾斜框之间的IOU
当两个倾斜文本距离很近时，普通的NMS会遗漏部分目标，但是倾斜的NMS能够同时检测出来

3. 训练目标 (多任务损失)

与Faster R-CNN的损失计算相同

（1）分类损失

（2）回归损失：水平框＋倾斜框的损失，t是类别标签(文本时t=0, 背景时t=0)，p是由softmax函数计算出的类别概率值。

小李AI飞刀^_^

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小李AI飞刀^_^ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。