Arbitrary Shape Scene Text Detection with Adaptive Text Region Representation ----论文阅读笔记

最新推荐文章于 2022-01-17 22:26:08 发布

CharlesWu123

最新推荐文章于 2022-01-17 22:26:08 发布

阅读量1.3k

点赞数 3

分类专栏：文本检测文章标签：文本检测

本文链接：https://blog.csdn.net/m0_38007695/article/details/95880956

版权

文本检测专栏收录该内容

20 篇文章 20 订阅

订阅专栏

论文地址：https://arxiv.org/abs/1905.05980
论文翻译：https://blog.csdn.net/m0_38007695/article/details/95880162

网络结构

方法简介

本文方法是一个两阶段的文本检测，第一阶段与Faster R-CNN类似，通过CNN + RPN + ROI 得到 text proposals；第二阶段就是对 text proposals进行细化，使预测的框更加准确。

主干网络使用的是 SE-VGG16（添加了SE block的VGG16），实验证明SE Block可以提升性能。

它的亮点主要是提出了 $\color{red} \text{自适应文本区域表示}$ ，可以根据文本框的形状使用网络去学习应该使用多少个点来表示文本框，之前的方法都是使用固定的点来表示文本框，但是水平文本、多向文本和弯曲文本的点的个数是不相同的，所以自己学习文本框的点数可以适应各种形状的文本框。实现这个功能的是LSTM，对文本框边界的上边框和下边框的对点进行回归，并且用 continue/stop标签来表示对点的结束标志。

加入了SE Block 的VGG16

SE Block结构

流程

训练：

输入图像，使用SE-VGG16提取 feature maps；
生成anchor，大小 ${32, 64, 128, 512\}$ ，纵横比 ${0.5, 1, 2\}$ ；
使用RPN网络和ROI生成 text proposals；
通过细化网络验证和微调 text proposals（文本/非文本分类，边框回归，自适应文本区域表示的LSTM）。

预测：

输入图像，使用SE-VGG16提取feature maps；
使用RON网络和ROI生成text proposals；
通过细化网络验证和微调 text proposals；
使用多边形NMS得到最后的预测输出。

方法细节

1. 自适应文本区域表示

文中使用有顺序的（从左向右的）上边框和下边框的对点来表示文本框，如下图（b）所示，因为对点有方向的排列更容易使用LSTM学习。

[外链图片转存失败(img-nQYWRhEZ-1563083984280)(./图2 文本区域表示.png)]

2. Proposal Refinement

对text proposal进行细化微调，包含文本/非文本分类、边框回归和基于自适应文本表示的LSTM等三个分支。

其中，文本/非文本分类和边框回归和其他的两阶段文本检测方法是类似的，通过两个全连接神经网络得到输出。

对于最后一个分支，输入是第一阶段处理后的每一个text proposals的特征，输出是每个文本区域自适应边框点的数量。考虑到输出长度是不同的，所以采用了RNN。对于对点的表示方法，文中采用的表示的方法是使用对点的坐标 $x_i, y_i, x_{i+1}, y_{i+1})$ 来表示。

如果对点使用中心点 $x_i^c, y_i^c)$ 的坐标，中心点到两个点的距离 $h_i$ 和他们的旋转角度 $\theta_i$ 来表示。目标角度在某些特殊情况下不好确定。例如， $90^\circ$ 和 $-90^\circ$ 在空间中是非常相似的，但是他们的角度是不同的。这个就很难正确的学习。除此之外，方向可以通过 $\sin \theta_i$ 和 $\cos \theta_i$ 来表示，这个可以很好的预测。但是需要很多参数。因此，本文方法使用点的坐标 $x_i, y_i, x_{i+1}, y_{i+1})$ 来作为回归目标

[外链图片转存失败(img-VKWWEWmt-1563083984281)(./图5 文本区域表示的LSTM.png)]

LSTM每个时间点的输入都是相同的，都是相应text proposal的 ROI pooling特征。每个时间点的输出是文本区域框的对点的坐标。由于不同的文本区域使用自适应点数，因此需要停止标签来表示预测网络何时停止。因为停止标签预测是分类问题，而坐标预测是回归问题，所以将他们放在同一分支是不合适的。因此，LSTM的每个时间点有两个分支：一个点的坐标的回归，一个停止标签的预测。在每一个时间点，都预测文本区域的两个对边的点的坐标和标签 stop/continue。如果标签是continue，在下一个时间点将会预测另外两个点的坐标和下一个标签，否则，预测停止，文本区域使用之前所有预测的点坐标来表示。这样，输入图像中的文本区域就可以使用不同的多边形（通过预测的对点组成的）来检测和表示了。

损失函数

由于Text-RPN和Faster R-CNN中的RPN是相似的，所以Text-RPN的训练损失也是以相同的方式计算的。因此，在这一部分，我们只关注微调网络的损失函数。每一个proposal的损失函数定义为文本/非文本分类损失，边框回归损失和边界点回归损失和停止/继续标签分类损失之和。边框回归损失和边界点回归损失都使用平滑L1损失，文本/非文本分类损失和停止/继续标签分类损失都是一个二分类损失。在每一个proposal上的多任务损失函数定义为：
$\begin{cases} L_{sum} & = L_{cls}(p,t) + \lambda_1 t \sum_{i \in \{x,y,w,h\}}L_{reg}(v_i, v_i^*) \\ & + \lambda_2 t \sum_{i \in \{x_1, y_1, x_2, y_2, ...,x_n, y_n\}}L_{reg}(u_i, u_i^*)\\ & + \lambda_3 t \sum_{i \in \{l_1, l_2, ..., x_{n/2}}L_{cls}(l_i, l_i^*) \end{cases}$
$\lambda_1$ ， $\lambda_2$ 和 $\lambda_3$ 是这些项的平衡参数，在本文方法中它们设置为1。

对于文本/非文本损失项， $t $ 是分类标签的标记。是文本时 $t = 1 $ ，不是文本时 $t = 0 $ 。参数 $p = (p_0, p_1)$ 是softmax计算后的文本和非文本的置信度。 $L_{cls}(p, t) = -\log p_t$ 是真值 $t $ 对数损失。

对于边框回归损失项， $v = (v_x, v_y, v_w, v_h)$ 是边框回归的目标，包括中心点的坐标和宽和高， $v^* = (v_x^*, v_y^*, v_w^*, v_h^*)$ 是每个 text proposal的预测值。我们使用 Faster R-CNN 中给出的 $v$ 和 $v^*$ 参数化，其中 $v$ 和 $v^*$ 指定了一个目标proposal的尺度不变性和对数空间高/宽偏移性。

对于边界点回归项， $u = (u_{x_1}， u_{y_1}，...,u_{x_n},u_{y_n})$ 是边界点的真值坐标， $u = (u_{x_1}^*， u_{y_1}^*，...,u_{x_n}^*,u_{y_n}^*)$ 是文本的预测值。为了使学习的点适合与不同尺度的文本，还应该处理学习目标使它们成比例不变。参数 $u_{x_i}^*, u_{y_i}^*)$ 根据以下公式处理：
$u_{x_i}^* = (x_i^* - x_a) / w_a, \quad u_{y_i}^* = (y_i^* - y_a) / h_a$
其中 $x_i^*$ 和 $y_i^*$ 表示边框点的坐标， $x_a$ 和 $y_a$ 表示相应text proposal中心点的坐标， $w_a$ 和 $h_a$ 表示这个proposal的宽和高。