《R2CNN：Rotational Region CNN for Orientation Robust Scene Text Detection》论文笔记

最新推荐文章于 2024-08-22 08:16:53 发布

m_buddy

最新推荐文章于 2024-08-22 08:16:53 发布

阅读量1.3k

点赞数 1

分类专栏： # Rotation Object Detection 文章标签： R2CNN

本文链接：https://blog.csdn.net/m_buddy/article/details/90116884

版权

Rotation Object Detection 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

代码地址： R2CNN

1. 概述

这篇文章提出了R2CNN模型用于去检测自然场景下任意角度旋转的文本，该模型是基于Faster R-CNN结构的。该方法首先使用RPN网络在文本区域的坐标轴方向上产生不同的默认检测框，之后对每个方向的默认检测框的特征使用不同的池化尺寸进行池化融合，最后网络使用融合的特征去预测三个结果（输出）：是文本与不是文本的置信度、坐标轴方向的检测框（也就是不带角度的矩形框）与倾斜矩形框，最后经过NMS输出结果。

网络对文本图像检测流程见图1所示，首先使用RPN生成包含文本区域的proposal（图b），之后对这些proposal进行分类并优化坐标（横框），使用不同池化参数处理之后的特征预测倾斜矩形框（图c），之后经过NMS处理得到最后结果（图d）。
在这里插入图片描述
文章的主要贡献：

1）在原有Faster RCNN的基础上使用RPN网络产生文本区域的proposal，修改网络的输出为文本区域分类、文本区域矩形框和文本区域倾斜矩形框；
2）为了能够更好检测文本区域，使用尺寸为 $7 * 7, 11 * 3, 3 * 11$ 的池化尺寸，在将这些池化的结果组合起来去产生回归结果；
3）文章也针对本文的场景设置anchor，比如设置小的anchor检测小的文本，最后使用带有倾斜矩形框的NMS处理得到最后的结果；

2. 网络设计

文章提出的R2CNN检测算法的结构见下图所示，与Faster RCNN比较明显的区别是Pooling的尺寸不同，回归的结果由2个变为了3个。
在这里插入图片描述

2.1 旋转文本检测的形式

在ICDAR 2015中文本区域是使用顺时针方向的四个坐标点进行表示的： $[(x 1, y 1), (x 2, y 2), (x 3, y 3), (x 4, y 4)]$ 。文章中指出并没有采用回归anchor的方法去检测矩形框，给出说明（理由）是正负90度是很难区分的，只有理解了文本内容才能作区分，这样会给网络带来歧义。因而采用的回归方式如下图的（b）（c）图所示，使用顺时针方向的两个点 $[(x 1, y 1), (x 2, y 2)]$ 与一个框的高度 $h$ 来表示回归的结果。
在这里插入图片描述