（三十一）论文阅读 | 文本检测之EAST

最新推荐文章于 2024-05-13 11:45:00 发布

zhangts20

最新推荐文章于 2024-05-13 11:45:00 发布

阅读量466

点赞数

分类专栏：论文阅读文章标签：计算机视觉深度学习人工智能

本文链接：https://blog.csdn.net/Skies_/article/details/107404257

版权

论文阅读专栏收录该内容

54 篇文章 33 订阅

订阅专栏

简介

在这里插入图片描述

图1：论文原文

本文介绍的是发表在 ${\rm CVPR\ 2017}$ 的一篇关于文本检测的文章。 ${\rm EAST}$ 是两阶段的文本检测模型，具有简单高效等的特点，是当前主流的文本检测模型之一。 ${\rm EAST}$ 在同期的 ${\rm ICDAR\ 2015}$ 、 ${\rm COCO}$ - ${\rm Text}$ 和 ${\rm MSRA}$ - ${\rm TD500}$ 数据集上达到了 ${\rm SOTA}$ 。论文原文源码

0. Abstract

当前，基于深度学习的文本检测算法获得了巨大的进展。但是，在面对具有挑战性的场景时仍不能表现出令人满意的结果，这是因为当前大多数模型的性能受到多个阶段的共同作用。论文提出一种简单高效的自然场景文本识别算法，它能够应对任意朝向和形状的文本，且不需要候选聚合和单词分区等操作。 ${\rm EAST}$ 在多项公开数据集上获得了 ${\rm SOTA}$ 。

论文贡献：（一）提出一个简单高效的两阶段文本检测模型；（二） ${\rm EAST}$ 可以实现字符级和文本级的检测。

1. Introduction

近年来，提取和理解自然场景中的文本信息成为了研究的热点。文本检测在文本信息提取和理解中扮演了重要的角色，它是后续操作的先决条件。文本检测算法的核心是基于文本特征从背景图像中提取出文本区域，发展过程从传统手工提取特征到基于深度学习的特征提取。但是，当前大多数的文本检测算法由多个阶段组成，这会带来计算量的增加和陷入次优解。论文提出一种简单高效的文本检测算法，算法整体仅含有两个步骤，直接通过 ${\rm FCN}$ 产生单词和文本级的预测结果。预测结果可以包含旋转矩形框或任意四边形，然后通过非极大值抑制得到最终的预测结果。相比于当前的文本检测算法， ${\rm EAST}$ 的速度更快、精度更高。

2. Related Work

传统的文本检测和文本识别方法依赖于手工提取特征。 ${\rm SWT}$ 和 ${\rm MSER}$ 基于边缘检测和极值区域检测得到候选区域。 ${\rm FASText}$ 基于笔画提取的快速关键点检测器，构建一个快速的文本检测系统。但是，传统方法在处理低分辨率、几何形变等场景时均落后于深度学习。当前，基于深度学习的文本检测算法成为研究主流。相关文章可以从论文的相关工作部分找到。但是，当前基于深度学习的文本检测模型的一大共性是由多个阶段组成，当某个阶段出现假阳性的检测结果时会影响最终的检测结果。同时，引入多个阶段会带来计算量的增加。论文基于 ${\rm FCN}$ 涉及了一个两阶段的文本检测算法，可以实现端到端的训练。模型结构对比如下图：
在这里插入图片描述

图2：Pipeline对比

3. Methodology

3.1 Pipeline

在这里插入图片描述

图3：EAST

如上图，最左边部分是轻量级骨干网络 ${\rm PVANet}$ ；中间是特征融合分支；最右边部分是 ${\rm EAST}$ 的输出。输出共包含三个部分：得分图， ${\rm RBOX}$ 用于处理文本区域的几何形变和 ${\rm QUAD}$ 用于预测四边形文本区域的四个顶点。其中， ${\rm RBOX}$ 主要用于处理旋转的四边形； ${\rm QUAD}$ 用于处理透视变换后的四边形。

3.2 Network Design

在设计网络时，必须考虑以下因素：使用浅层特征预测小文本区域，使用深层特征预测大文本区域。因此，预测所用的特征图必须包含上下文信息。如上图，依次将 ${\rm 32、16、8、4}$ 倍下采样的特征图表示为 $f_i$ 。然后，采用以下规则合并特征图。 $g_i=\begin{cases} {\rm uppool}(h_i)& \ \ {\rm if}\ \ \ i\le3\\ {\rm conv}_{3×3}(h_i)& \ \ {\rm if}\ \ \ i=4 \end{cases}\tag{1}$

$h_i=\begin{cases} f_i& \ \ {\rm if}\ \ \ i=1\\ {\rm conv}_{3×3}({\rm conv}_{1×1}([g_{i-1};f_i]))& \ \ {\rm otherwise} \end{cases}\tag{2}$

在输出部分，得分图的通道数为 $1$ ，表示当前文本区域的置信度； ${\rm RBOX}$ 的通道数为 $5$ ，分别表示旋转角度和轴对齐的边界框（来自于 ${\rm AABB}$ ）； ${\rm QUAD}$ 的通道数为 $8$ ，表示对于四边形四个顶点的水平坐标偏移。

3.3 Label Generation

3.3.1 Score Map Generation for Quadrangle

不失一般性，论文只针对四边形区域计算损失。这里并不是针对整个四边形区域计算损失，而是使用原四边形的缩小版本，这里主要考虑减小标注时的误差，也减少了文本区域边缘的背景信息的干扰。其中缩小规则如下。对于四边形 ${\bold Q}=\{p_i|i\in\{1,2,3,4\}\}$ ，其中 $p_i$ 为四边形顺时针方向的四个顶点。然后计算每个点 $p_i$ 的参考长度： $r_i=\min({\rm D}(p_i,p_{(i\ {\rm mod}\ 4)+1}),{\rm D}(p_i,p_{((i+3)\ {\rm mod}\ 4)+1}))\tag{3}$

其中， ${\rm D}(p_i,p_j)$ 表示 $p_i$ 和 $p_j$ 之间的 $L_2$ 距离。具体地，首先缩小四边形较长的两条边，然后再缩放较短的两条边。长短边的定义是根据相对边长度的平均值而定。对于每条边 $\langle p_i,p_{(i\ {\rm mod}\ 4)+1} \rangle$ ，将它的两个端点分别向内移动 $0.3r_i$ 和 $0.3r_{(i\ {\rm mod}\ 4)+1}$ 。即下图中的将黄色虚线的标注框缩小为绿色框，同时生成后一幅图中的掩膜作为训练标签。
在这里插入图片描述

图4：score map

3.3.2 Geometry Map Generation

在这里插入图片描述

图5：RBOX

前面提到， ${\rm RBOX}$ 的输出有 $5$ 个通道，分别表示几何位置和旋转角度。如上图首先生成一个最小的外接矩形框包围文本区域，即上图中的粉色框。输出的四个通道的值分别表示正得分像素到框边界的距离，一个通道的值表示相对于水平的旋转角度。对于 ${\rm QUAD}$ ，直接计算相对于真实框的顶点偏移。

3.4 Loss Functions

$L=L_s+\lambda_gL_g\tag{4}$

其中， $L_s$ 和 $L_g$ 分别表示得分图和几何位置的损失， $\lambda_g$ 是平衡系数。

3.4.1 Loss for Score Map

论文引入类平衡交叉熵损失函数： $\begin{aligned}L_s & ={\rm balanced\ xent({\hat{\bold Y}},{\bold Y}^*)} \\& =\beta{\bold Y}^*\log({\hat{\bold Y}})-(1-\beta)(1-{\bold Y}^*)\log(1-{{\hat{\bold Y}}}) \end{aligned}\tag{5}$

其中， ${\hat{\bold Y}=F_s}$ 表示预测的得分图， ${\bold Y}^*$ 表示真实图， $\beta$ 是平衡因子，其计算如下。 $\beta=1-\frac{\sum_{y^*\in{\bold Y}^*}y^*}{|{\bold Y}^*|}\tag{6}$

3.4.2 Loss for Geometries

文本检测的一大挑战是自然场景图片的尺寸变化大，直接使用 $L_1$ 或 $L_2$ 作为损失函数将会使模型倾向于处理长文本区域。 ${\rm RCNN}$ 提出使用偏移作为回归目标解决了目标尺寸多变的问题。而论文在 ${\rm RBOX}$ 处基于 ${\rm AABB}$ 的 ${\rm IoU}$ 损失和在 ${\rm QUAD}$ 处基于标准化 ${\rm SmoothL1}$ 损失。

RBOX

$L_{AABB}=-\log\ {\rm IoU}({\hat{\bold R}},{\bold R}^*)=-\log\frac{|{\hat{\bold R}}\cap{\bold R}^*|}{|{\hat{\bold R}}\cup{\bold R}^*|}\tag{7}$

其中， ${\hat{\bold R}}$ 和 ${\bold R}^*$ 分别是 ${\rm AABB}$ 中的预测值和真实值。显然， $|{\hat{\bold R}}\cap{\bold R}^*|$ 的宽和高为： $w_i=\min(\hat{d}_2,d^*_2)+\min(\hat{d}_4,d^*_4)\\ h_i=\min(\hat{d}_1,d^*_1)+\min(\hat{d}_3,d^*_3)\tag{8}$

其中， $d_*$ 表示像素点到框边界的距离。 $|{\hat{\bold R}}\cup{\bold R}^*|=|\hat{\bold R}|+|{\bold R}^*|-|{\hat{\bold R}}\cap{\bold R}^*|\tag{9}$

关于旋转角度的损失： $L_{\theta}(\hat{\theta},\theta^*)=1-\cos(\hat{\theta}-\theta^*)\tag{10}$

其中， $\hat{\theta}$ 和 $\theta^*$ 分别表示预测值和真实值。最后， ${\rm RBOX}$ 的总损失为： $L_g=L_{AABB}+\lambda_{\theta}L_{\theta}\tag{11}$

QUAD

四个顶点的集合： ${\rm C}_{\bold Q}=\{x_1,y_1,x_2,y_2,...,x_4,y_4\}\tag{12}$

则损失函数定义为： $\begin{aligned}L_g&=L_{QUAD}(\hat{\bold Q},{\bold Q}^*)\\ &=\min_{\bold {\tilde Q}\in P_{\bold Q}^*}\sum_{c_i\in{\rm C}_{\bold Q}, {\tilde c}_i\in{\rm C}_{\bold {\tilde Q}}} \end{aligned}\frac{{\rm smoothed}_{L1}(c_i-{\tilde c}_i)}{8×N_{\bold Q}^*}\tag{13}$

其中，正则化因子 ${\rm N_{\bold Q^*}}$ 是四边形的最短边长度。 $N_{\bold Q^*}=\min_{i=1}^4D({p_i,p_{(i\ {\rm mod}\ 4)+1})}\tag{14}$

3.5 Locality-Aware NMS

在后处理阶段，通常会使用 ${\rm NMS}$ ，而原始的 ${\rm NMS}$ 的算法时间复杂度为 $O(n^2)$ 。为了提高模型的运行速度，论文根据文本检测任务的特点，提出位置感知 ${\rm NMS}$ 。具体地，鉴于邻近像素的几何性高度相关，论文提出的做法是逐行合并几何体同时合并同一行的几何体，即迭代地从第一行合并至最后一行。对于图像中的某一行文本来说，算法的时间复杂度为 $O (n)$ 。算法整体流程如下：
在这里插入图片描述

图6：Locality-Aware NMS

4. Experiments

在这里插入图片描述

图7：ICDAR 2015

在这里插入图片描述

图8：COCO-Text

在这里插入图片描述

图9：MSRA-TD500

5. Conclusion

由前面的介绍可知， ${\rm EAST}$ 类似于一个一阶段目标检测算法。在结构设计时，考虑了各种角度的文本区域，并通过不同的输出分支处理不同的情境。但是，由于 ${\rm EAST}$ 没有使用 ${\rm RNN}$ 判断检测区域是否具有上下文信息。举个极端的例子，加入待检测图中的文本区域很宽，占据整幅图的宽度。这样，在 ${\rm EAST}$ 中由于感受野大小的限制，并不能很精确地检测出整个长文本。所以，后面有对 ${\rm EAST}$ 的改进工作 ${\rm AdvancedEAST}$ 。它改变输出分支，以预测文本区域的头尾来得到最后的检测结果。

参考

Zhou X, Yao C, Wen H, et al. East: an efficient and accurate scene text detector[C]//Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. 2017: 5551-5560.

完