论文小结：基于旋转思想的RRPN网络介绍

Resun95

已于 2023-06-10 15:57:53 修改

阅读量217

点赞数

文章标签：深度学习人工智能目标检测

于 2023-06-09 22:58:59 首次发布

本文链接：https://blog.csdn.net/m0_73492688/article/details/131135911

版权

1 简介

该论文的主要工作有：①提出了一种与基于分割方法不同的文本检测方法，该方法是基于区域提取的方法，同时将RRoI（Rotation Region-of-Interest）和旋转兴趣区域学习相结合。保证了文本检测过程中的效率；②提出了一种新的任意旋转文本区域优化的策略，从而优化了旋转文本的检测性能；③该方法在MSRA-TD500，ICDAR2013和ICDAR2015中比之前的方法更精准更高效。（论文地址：https://arxiv.org/abs/1703.01086）

2 探究方法

2.1 整体架构

2.2 旋转边界框的表达

文本标注使用（𝑥,𝑦,h,𝑤,𝜃）进行表示，坐标（𝑥,𝑦）代表标注框的几何中心，高度hh代表标注框的短边，宽度𝑤代表标注框的长边，角度𝜃是边界框的长边沿𝑥轴旋转的正向角度，这个角度的范围是[-π/4, 3π/4)，使用这样的五个变量进行表示具有3个好处：①能够比较容易计算出两个旋转的角度差异；②相较于传统上对于边界框使用8个点的表达，使用这样的方式更能很好回归带有旋转的目标检测框情形；③使用这样的表达能够高效计算经过旋转之后训练图片的ground truth。在取得每个批次的训练数据的时候对原始数据进行旋转变换，即使输入的数据是水平无旋转角度的扔进去训练亦可行。

2.3 旋转的锚点

由于实际检测场景的复杂性，这里使用带有旋转角度的三维度变量锚点而非原有两维度变量锚点，使用了6个不同的角度来控制目标疑似区域的提取（-π/6,0,π/6, π/3, π/2, 2π/3），长宽比例采用3组（1:2, 1:5, 1:8），尺度上也取3组（8, 16, 32），这样就组合生成了6×3×3=54个5维度（𝑥,𝑦,h,𝑤,𝜃）的锚点。对于宽高为𝑊×𝐻的特征图会产生数目为𝑊×𝐻×54的锚点。

2.4 兴趣区域的学习

RPN网络需要在现有的锚点基础上进行学习，这一点与传统的Faster R-CNN单靠IoU进行判别不同，这里的正负样本区域提取的划定准则为：①正样本的情形：与GT框的IoU大于0.7，同时与GT框的角度夹角小于π/12；②负样本的情形：与GT框的IoU小于0.3，或是与GT框的IoU大于0.7但是与GT框的角度夹角大于π/12 。这里使用的损失函数定义为如下的形式：

对于分类损失定义为：

对于边界框的回归定义为：

那么在2.3中为什么只选用6组锚点角度？在2.2中固定了旋转的表达范围是[-π/4, 3π/4)，然后在正负样本判别的时候给了π/12的裕度范围，所以这样划分就形成了这样的6组角度。

左图c中可以看出同目标区域经过回归之后的角度朝向是一致的。在左图c中可以看出同目标区域经过回归之后的角度朝向是一致的。

为了证明能够从特征图中训练拟合角度，右图展示了不同训练轮数的特征图的对比，小的白短线是对锚点有较高响应的部分。

2.5 区域提取网络的优化

斜交情况下IoU的计算：传统情况下参与计算IoU的矩形框都是水平的，但是这样的假设在本场景中是不成立的，因而提出了一种计算斜交矩形交叠面积的方法，其方法见算法1，方法的示意图见右图，在右图中将交叠区域，使用绿色的虚线划分为了多个三角形，通过计算这些三角形面积的和，从而得到交叠区域的面积。

2.6 RRoI池化层

这里提出RRoI Pooling是为了避免使用传统的RoI Pooling带来的损失，因为需要检测的目标是带有角度的了，所以需要对应的RRoI Pooling。其原理见下图所示，是将文本区域按照文本的方向划分为等分的格子（a图），在将这些格子中的数据映射到最后的结果中（b图）。RRoI Pooling的算法流程见算法2所示。

3 实验

MSRA-TD500的注释更倾向于标记整个文本行的区域。因此，文本行的长度没有固定的范围，有时非常长。然而由于R锚固定的比率且可能不足以覆盖所有的长度，会导致单个文本区域的几个短边界框结果。为了解决这个超长的文本行问题，通过将多个短检测段链接到一个更精细的提议中，结合了后处理步骤，如算法3中所述。

4 小结

该工作的创新点：生成带文字角度信息的倾斜的区域。①RRPN（Rotation Region Proposal Networks）：生成带角度信息的角度，从而生成任意方向的区域；②RRoI（Rotation Region-of-Interest）pooling layer：将任意方向的区域映射到特征图上，再进行最大池化。