R2CNN翻译

最新推荐文章于 2024-04-19 10:08:22 发布

cool_策

最新推荐文章于 2024-04-19 10:08:22 发布

阅读量482

点赞数

分类专栏：深度学习

深度学习专栏收录该内容

25 篇文章 1 订阅

订阅专栏

对照论文阅读
Abstract
在本文中，我们提出了一种称为旋转区域CNN（R2CNN）的新方法，用于检测自然场景图像中的任意方向的文本。该框架基于Faster R-CNN [1]架构。首先，我们使用区域提案网络（RPN）生成与轴对齐的边界框，该边界框将文本以不同的方向包围起来。其次，对于RPN提出的每个轴对齐文本框，我们提取其具有不同合并大小的合并特征，并使用级联特征同时预测文本/非文本分数，轴对齐框和倾斜最小面积框。最后，我们采用倾斜非最大抑制得到检测结果。我们的方法在文本检测基准上取得了竞争性结果：ICDAR 2015和ICDAR 2013。
Introduction
自然场景中的文字（例如街道铭牌，商店名称，好名）在我们的日常生活中起着重要作用。它们携带有关环境的基本信息。了解了场景文本之后，它们可以在许多领域中使用，例如基于文本的检索，翻译等。了解场景文本通常有两个关键步骤：文本检测和文本识别。本文着重于场景文本检测。场景文本检测具有挑战性，因为场景文本具有不同的大小，宽高宽比，字体样式，照明，透视图失真，方向等。由于方向信息对于场景文本识别和其他任务很有用，因此场景文本检测与常见对象检测任务，除了轴对齐的边界框信息外，还应预测文本方向。
虽然大多数以前的文本检测方法都是为检测水平或接近水平的文本而设计的[2,3,4,5,6,7,8,9,10,11,12,13,14]，但有些方法试图解决面向任意方向的文本检测问题[15,16,17,18,19,20,31,32,33,34]。近年来，面向任意方向的场景文本检测是一个热门的研究领域，从ICDAR2015鲁棒阅读竞赛中偶然场景文本检测中频繁的结果更新可以看出[21]。传统的文本检测方法基于滑动窗口或连接的组件（CC）[2,3,4,6,10,13,17,18,19,20]，近来基于深度学习的方法已得到广泛研究[7]。，8,9,12,15,16,31,32，33,34]
本文提出了一种旋转区域CNN（R2CNN），用于检测面向任意方向的场景文本。它基于Faster R-CNN体系结构[1]。图1显示了所提出方法的过程。图1（a）是原始输入图像。我们首先使用RPN提出围绕文本的轴对齐边界框（图1（b））。然后，我们对提案进行分类，细化与轴对齐的框，并预测具有不同合并大小的合并特征的倾斜最小面积框（图1（c））。最后，采用倾斜非最大抑制对检测候选进行后处理，以获得最终的检测结果（图1（d））。我们的方法在ICDAR 2015附带文本检测基准上得出的F度量为82.54％，在ICDAR 2013重点文本检测基准上得出的F度量为87.73％。
本文的贡献如下：-我们引入了一种新颖的框架来检测任意方向的场景文本（图2）。它基于Faster R-CNN [1]。 RPN用于提议文本区域，而Fast R-CNN模型[23]被修改以进行文本区域分类，细化和斜框预测。
-面向任意方向的文本检测问题被表述为多任务问题。该方法的核心是为RPN生成的每个提案预测文本分数，轴对齐框和最小倾斜面积框。
-为了充分利用文本特征，我们为每个RPN提案进行了几个具有不同合并大小（7×7,11×3,3×11）的ROIPooling。所连接的特征然后用于进一步检测。
-我们对Faster R-CNN的修改还包括添加较小的锚点以检测小场景文本，并使用倾斜的非最大抑制对检测候选物进行后处理以获得最终结果。
Related Work
传统的场景文本检测方法包括基于滑动窗口的方法和基于连接组件（CC）的方法[2,3,4,6,10,13,17,18,19,20]。基于滑动窗口的方法会在图像中密集移动多尺度窗口，然后将候选者分类为字符或非字符，以检测候选字符。基于CC的方法基于CC生成字符候选者。特别是，基于最大稳定极值区域（MSER）的方法在ICDAR 2015 [21]和ICDAR 2013 [22]比赛中获得了良好的表现。这些传统方法采用自下而上的策略，通常需要几个步骤来检测文本（例如，字符检测，文本行构造和文本行分类）。
普通物体检测是近来研究的热点。基于深度学习的技术具有先进的对象检测功能。一种依赖区域建议的对象检测方法，例如R-CNN [24]，SPPnet [25]，Fast R-CNN [23]，Faster R-CNN [1]和R-FCN [26]。另一类对象检测器不依赖于区域提议，而是直接估计候选对象，例如SSD [27]和YOLO [28]。我们的方法基于Faster R-CNN架构。在Faster R-CNN中，提出了区域提议网络（RPN），以直接从卷积特征图中生成高质量的对象提议。然后，由RPN生成的提案会用Fast R-CNN模型进行完善和分类[23]。由于场景文本具有方向性并且不同于一般对象，因此一般对象检测方法不能直接用于场景文本检测中。
已经研究了基于深度学习的场景文本检测方法[7,8,9,12,15,16,31,32,33,34]，并且比传统方法具有更好的性能。 TextBoxes是具有单个深度神经网络的端到端快速场景文本检测器[8]。 DeepText通过Inception-RPN生成单词区域建议，然后使用文本检测网络对每个单词建议进行评分和优化[7]。全卷积回归网络（FCRN）利用合成图像来训练场景文本检测模型[12]。但是，这些方法旨在生成轴对齐的检测框，并且不能解决文本方向问题。 Connectionist文本提案网络（CTPN）检测具有固定宽度的垂直框，使用BLSTM捕获顺序信息，然后链接垂直框以获取最终的检测框[9]。它擅长检测水平文本，但不适用于高倾斜文本。基于全卷积网络（FCN）的方法旨在检测多方位的场景文本[16]。该方法需要三个步骤：通过文本块FCN进行文本块检测，基于MSER的多方向文本行候选生成以及文本行候选分类。旋转区域提议网络（RRPN）也被提出来检测面向任意方向的场景文本[15]。它基于Faster R-CNN [1]。对RPN进行了修改，以生成带有文本方向角度信息的倾斜建议，并且基于倾斜建议进行以下分类和回归。 SegLink [31]被提出通过检测段和链接来检测定向文本。它可以在任意长度的文本行上很好地工作。 EAST [32]旨在在自然场景中产生快速准确的文本检测。 DMPNet [33]用于检测具有更紧密四边形的文本。深度直接回归[34]被提出用于多方向场景文本检测。
我们的目标是检测面向任意方向的场景文本。与RRPN [15]类似，我们的网络也基于Faster R-CNN [1]，但是除了生成倾斜的提案外，我们还采用了其他策略。我们认为RPN有资格生成文本候选，并且我们根据RPN提出的文本候选来预测方向信息。
Proposed Approach
在本节中，我们介绍了检测面向任意方向的场景文本的方法。图2显示了建议的旋转区域CNN（R2CNN）的体系结构。我们首先介绍如何形式化面向任意方向的文本检测问题，然后介绍R2CNN的详细信息。之后，我们描述我们的培训目标。
Problem definition
在ICDAR 2015竞赛[21]中，附带场景文本检测的地面真值由顺时针四个点（x1，y1，x2，y2，x3，y3，x4，y4）表示，如图3（a）所示。标签在单词级别。这四个点形成一个四边形，可能不是矩形。尽管由于透视失真，场景文本可以被不规则的四边形更紧密地包围，但是它们可以被带有方向的倾斜矩形粗略地包围（图3（b））。由于我们认为倾斜的矩形能够覆盖大部分文本区域，因此在我们的方法中，将面向任意方向的场景文本检测任务近似为检测倾斜的最小区域矩形。在本文的其余部分，当我们提到边界框时，它是指矩形框。
尽管用一种简单的方法来表示一个倾斜矩形使用角度表示其方向，我们不采用这种策略，因为角度目标在某些特殊点上不稳定。例如，旋转角为90度的矩形与旋转角为-90度的矩形非常相似，但是它们的角度却大不相同。这使得网络难以学习检测垂直文本。代替使用角度来表示方向信息，我们使用顺时针方向的前两个点的坐标以及边界框的高度来表示倾斜的矩形（x1，y1，x2，y2，h）。我们假设第一个点始终表示场景文本左上角的点。图3（b）和图3（c）显示了两个示例。（x1，y1）是第一个点（红色实心点）的坐标，（x2，y2）是第二个点沿顺时针方向的坐标，h是最小倾斜面积矩形的高度。
Rotational Region CNN (R2CNN)
概述。我们采用流行的两阶段目标检测策略，该策略包括区域提议和区域分类。旋转区域CNN（R2CNN）基于Faster R-CNN [1]。图2显示了R2CNN的体系结构。 RPN首先用于生成文本区域建议，它们是与轴对齐的包围盒，其中包含面向任意方向的文本（图1（b））。然后，对于每个建议，在卷积特征图上执行几个具有不同合并大小（7×7,11×3,3×11）的ROIPooling，并将合并的特征串联起来以进行进一步的分类和回归。通过连接的要素和完全连接的图层，我们可以预测文本/非文本分数，轴对齐的框和倾斜的最小面积框（图1（c））。之后，通过倾斜非最大抑制对倾斜盒进行后处理以获得检测结果（图1（d））。
RPN用于建议轴对齐的框。我们使用RPN生成轴对齐的边界框，该边界框包围了任意方向的文本。这是合理的，因为轴对齐框中的文本属于以下情况之一：a）文本在水平方向上； b）文字是在垂直方向上； c）文本在与轴对齐的框的对角线方向上。如图1（b）所示，RPN能够以面向任意方向的文本的轴对齐框的形式生成文本区域。
与一般对象相比，有更多的小型场景文本。我们通过在RPN中使用较小的锚点规模来支持这一点。虽然在Faster R-CNN [1]中原始锚定标度为（8,16,32），但我们研究了两种策略：a）将锚定标度更改为较小的大小并使用（4,8,16）； b）添加一个新的锚定比例并使用（4,8,16,32）。我们的实验证实，采用较小的锚点有助于场景文本检测。
我们将RPN的其他设置保持与Faster R-CNN [1]相同，包括锚点宽高比，正样本和负样本的定义等。
不同池大小的ROIPooling。 Faster R-CNN框架对每个RPN提案的合并大小为7×7的特征图进行ROIPooling。由于某些文本的宽度远大于其高度，因此我们尝试使用三个大小不同的ROIPooling来捕获更多文本特征。合并的要素将串联起来以进行进一步检测。具体来说，我们添加了两个合并大小：11×3和3×11。合并大小3×11应该可以捕获更多的水平特征，并有助于检测宽度远大于其高度的水平文本。合并的大小11×3应该可以捕获更多的垂直特征，并且对于高度大于宽度的垂直文本检测很有用。
文本/非文本分数，轴对齐的框和倾斜的最小面积框的回归。在我们的方法中，在RPN之后，我们将RPN生成的提案分类为文本还是非文本，细化包含任意定向文本的轴对齐边界框，并预测倾斜边界框。每个倾斜的框都与一个轴对齐的框关联（图1（c）和图4（a））。尽管我们的检测目标是倾斜的边界框，但我们认为添加其他约束（轴对齐的边界框）可以提高性能。我们的评估也证实了这种想法的有效性。
倾斜非最大抑制。非最大抑制（NMS）被广泛用于当前对象检测方法对检测候选对象的后处理。当我们估计轴对齐的边界框和倾斜边界框时，我们既可以在轴对齐的边界框上进行普通NMS，也可以在倾斜边界框上进行倾斜NMS。在倾斜的NMS中，将传统的联合路口（IoU）的计算修改为两个倾斜边界框之间的IoU。利用[15]中使用的IoU计算方法。
图4说明了执行两种NMS后的检测结果。图4（a）显示了预测的候选框，其中每个与轴对齐的边界框都与一个倾斜的边界框相关联。图4（b）显示了正常NMS对轴对齐框的影响，图4（c）显示了倾斜NMS对倾斜框的影响。如图4（b）所示，在普通NMS轴对齐框上未检测到红色虚线框内的文本。图4（d）和图4（e）显示了倾斜的NMS对倾斜的场景文本检测更好的原因。我们可以看到，对于紧密相邻的倾斜文本，正常的NMS可能会丢失一些文本，因为轴对齐框之间的IoU可能很高（图4（d）），但是倾斜的NMS不会丢失文本，因为倾斜的IoU值。
Training objective (Multi-task loss)
RPN上的训练损失与Faster R-CNN [1]相同。在本节中，我们仅在RPN生成的每个轴对齐框建议中介绍R2CNN的损失函数。
我们在每个提案中定义的损失函数是文本/非文本分类损失和box回归损失的总和。框回归损失由两部分组成：包围任意方向的文本的轴对齐框的损失和倾斜最小面积框的损失。每个提案的多任务损失函数定义为：

𝜆1和𝜆2是控制三个项之间权衡的平衡参数。
框回归仅对文本进行。 t是类别标签的指示器。文本标记为1（t = 1），背景标记为0（t = 0）。参数p =（p0，p1）是softmax函数计算的文本和背景类的概率。 𝐿cls𝑝，𝑡= −log𝑝𝑡是真实类t的对数损失。
𝑣=（𝑣𝑥，𝑣𝑦，𝑣𝑤，𝑣ℎ）是真正的轴对齐边界框回归目标的元组，包括中心点的坐标及其宽度和高度，and = =𝑣𝑥∗，𝑣𝑤∗，𝑣𝑤∗，𝑣ℎ∗是文本标签的预测元组。 𝑢=（𝑢𝑥1，𝑢𝑦1，𝑢𝑥2，𝑢𝑦2，𝑢ℎ）是真实的倾斜边界框回归目标的元组，包括倾斜框的前两个点及其高度的坐标，and ∗ =𝑢𝑥1∗，𝑢𝑦1∗，𝑢𝑥2∗， 𝑢𝑦2∗，𝑢ℎ∗是文本标签的预测元组。我们使用在[24]中给出的𝑣和𝑣∗的参数化，其中𝑣和𝑣∗指定相对于对象提议的尺度不变平移和对数空间高度/宽度偏移。对于倾斜的边界框，𝑢𝑥1，𝑢𝑦1，（𝑢𝑥2，𝑢𝑦2），（𝑢𝑥1*，𝑢𝑦1*）和𝑢𝑥2*，𝑢𝑦2*的参数化与𝑣𝑥，𝑣𝑦相同。 𝑢ℎ和𝑢ℎ的参数化与𝑣ℎ和∗的参数化相同。
令𝑤，𝑤∗表示𝑣𝑖，𝑣𝑖∗或𝑢𝑖，𝑢𝑖∗，𝐿𝑟𝑒𝑔𝑤，𝑤∗定义为：

. Experiments
训练数据。我们的训练数据集包括来自ICDAR 2015训练数据集[21]的1000个附带场景文本图像和我们收集的2000个聚焦场景文本图像。我们收集的图像中的场景文本很清晰，并且与ICDAR 2015中的模糊文本完全不同。尽管我们的简单实验表明，额外收集的图像并不会提高ICDAR2015的性能，但我们仍将它们包括在训练中以使我们的模型更对不同种类的场景文本具有鲁棒性。由于ICDAR 2015培训数据集包含难以检测的难以识别的文本，这些文本被标记为“ ###”，因此我们仅将这些可读文本用于培训。此外，我们仅使用由多个字符组成的场景文本进行训练。
为了支持面向任意方向的场景文本检测，我们通过旋转图像来增强ICDAR 2015训练数据集和我们自己的数据。我们以下列角度旋转图像（-90，-75，-60，-45，-30，-15、0、15、30、45、60、75、90）。因此，在数据扩充后，我们的训练数据包含39000张图像。
ICDAR 2015中的文本在单词级别带有四个四边形的顺时针点坐标标记。正如我们在第3.1节中介绍的那样，通过检测倾斜矩形来简化附带文本检测的问题，我们通过计算包围四边形的最小面积矩形来从四边形生成地面真实倾斜边界框（矩形数据）。然后，我们将包围文本的最小轴对齐边界框计算为地面真实轴对齐框。进行了类似的处理以为我们收集的图像生成地面真实数据。
训练。我们的网络由用于ImageNet分类的预训练VGG16模型初始化[29]。我们使用端到端的培训策略。所有模型都经过训练总共20×104次迭代。学习率从10−3开始，然后乘以1 10在5×104、10×104和15×104迭代之后。重量衰减为0.0005，动量为0.9。所有实验均使用单尺度训练。图像的最短边设置为720，而图像的最长边设置为1280。我们选择此图像尺寸是因为ICDAR 2015 [21]中的训练和测试图像具有尺寸（宽度：1280，高度：720）。