PSENet：Shape Robust Text Detection with Progressive Scale Expansion Network ---- 论文阅读笔记

最新推荐文章于 2021-01-02 04:26:41 发布

CharlesWu123

最新推荐文章于 2021-01-02 04:26:41 发布

阅读量1.3k

点赞数 5

分类专栏：文本检测文章标签：文本检测

本文链接：https://blog.csdn.net/m0_38007695/article/details/96438264

版权

文本检测专栏收录该内容

20 篇文章 20 订阅

订阅专栏

论文地址：https://arxiv.org/abs/1903.12473
论文翻译：https://blog.csdn.net/m0_38007695/article/details/96425198
代码地址：
PyTorch版本：https://github.com/whai362/PSENet , https://github.com/WenmuZhou/PSENet.pytorch
TensorFlow版本：https://github.com/liuheng92/tensorflow_PSENet

方法简介

PSENet：主干网络ResNet，基本框架FPN。

亮点： 提出了内核（把 $S_1,S_2,...,S_n$ 中的文本实例的分割区域称为内核kernels）和渐进式扩展算法（Progressive Scale Expansion ）。

优势：

是一个基于像素分割的方法，能够精确地定位任意形状的文本实例
提出了渐进式扩展算法，即使两个文本实例离得很近也可以分开，从而保证文本实例的准确位置。

方法流程

输入图像，从主干网络获得四个256通道特征图（即 $P_2, P_3, P_4, P_5$ ）。
通过函数 $\Bbb C(\cdot)$ 用1024个通道融合了四个特征映射得到feature map $F $ （进一步将语义特征从低级别升级到高级别）：

$\Bbb C(P_2, P_3, P_4, P_5) = P_2 \;||\; Up_{×2}(P_3) \;||\; Up_{×4}(P_4) \;||\; Up_{×8}(P_5)$

其中 “ $∣ ∣ $ ” 代表拼接（concatenation）， $Up_{×2}(\cdot),\; Up_{×4}(\cdot), \; Up_{×8}(\cdot)$ 分别代表上采样 $\; 4, \;8$ 倍。

随后，将 $F $ 通过到 $C o n v (3, 3) - B N - R e L U $ 层中并减少至256个通道。接下来，它通过 $n $ 个 $C o n v (1, 1) - U p - S i g m o i d $ 层并产生 $n $ 个分割结果 $S_1,S_2,...,S_n$ 。

$C o n v $ ， $B N $ ， $R e L U $ 和 $U p $ 指的是卷积，批量归一化，整流线性单元和上采样。

每个 $S_i$ 是一定尺度的所有文本实例的一个分割掩码，此处的尺度由超参数决定。 $S_1$ 具有最小尺度（最小内核）的文本实例的分割结果， $S_n$ 表示原始分割掩模（最大内核）。
使用渐进式算法将 $S_1$ 中的所有实例的内核逐渐扩展到它们在 $S_n$ 中的完整形状，并获得最终的检测结果 $R$ 。

对于训练步骤：

执行1,2,3,得到 $n$ 个分割结果 $S_1,S_2,...,S_n$ 之后，对每一个分割结果和其对应的ground truth计算损失，反向传播，更新参数。

对于推理步骤：

执行1,2,3,4得出最终的检测结果。

方法细节

1. 渐进尺度扩展算法

这有一个生动的例子（下图），解释了渐进扩展算法的流程，其中心思想来自于广度优先搜索（BFS）算法。在这个例子里，我们有三个分割的结果 $S = \{S_1, S_2, S_3\}$ (图(a)(e)(f)）。首先基于最小内核的map $S_1$ (图(a))，4个不同的连通域 $C = \{c_1, c_2, c_3,c_4\}$ 可以作为初始化。在图(b)中分别使用不同的颜色代表不同的连通域。现在，我们检测到了全部文本实例的中心部分（最小内核）。然后，我们通过合并 $S_2$ 中的像素逐步扩展检测到的内核，然后 $S_3$ 。这两个尺度扩展结果分别在图©和图(d)中显示。最后，我们提取在图(d)中用不同颜色标记的连通域作为文本实例的最终预测。

在这里插入图片描述

尺度扩展的流程在图(g)中说明。扩展基于广度优先搜索算法，该算法从多个核的像素开始并迭代地合并相邻的文本像素。请注意，在扩展期间可能存在冲突的像素，如图(g)中的红色框所示。在我们的实践中处理冲突的原则是，混淆的像素只能由一个单独的内核合并 - 先到先得。由于“渐进式”扩展程序，这些边界冲突不会影响最终检测和性能。算法1总结了尺度扩展算法的细节。在伪代码中， $T, P $ 是中间结果， $Q $ 是队列。 $\rm Neighbor(\cdot)$ 代表 $p $ 的邻近像素（4个方向）。 $\rm GroupByLabel(\cdot)$ 是按标签对中间结果进行分组的函数。“ $S_i[q] = \rm True$ ” 表示 $S_i$ 中像素 $q $ 的预测值属于文本部分。 $C $ 和 $E $ 分别表示扩展前后的内核。
在这里插入图片描述

2. 标签生成

[外链图片转存失败(img-GbjOcNmf-1563441756505)(./图5 标签生成.png)]
PSENet生成不同尺度内核的分割结果（例如 $S_1, S_2,...,S_n$ ）。因此，在训练的时候，有相对应的不同内核的Ground Truth。这些Ground Truth通过缩小原始文本实例生成。在上图 (b) 中蓝色边框的多边形代表原始文本实例，它对应于最大的分割标签掩码（最右边图 ( c )）。为了顺序获得在图 ( c ) 中的收缩掩模，我们利用 $\rm Vatti$ 裁剪算法将原始多边形 $p_n$ 缩小 $d_i$ 像素并得到缩小的多边形 $p_i$ （见图(a)）。随后，每个收缩的多边形 $p_i$ 被转换成 0/1 二进制掩码作为分割标签 Ground Truth。我们将这些Ground Truth分别表示为 $G_1,G_2,...,G_n$ 。在数学上，如果我们将比例视为 $r_i$ ，则 $p_n$ 和 $p_i$ 之间的余量 $d_i$ 可以计算为：
$d_i = \frac{\rm{Area}(\it{p_n}) × (1 - r_i^2)}{\rm Perimeter (\it p_n)}$
其中， $\rm Area(\cdot)$ 是计算多边形面积的函数， $\rm Perimeter(\cdot)$ 是计算多边形周长的函数。我们定义Ground Truth $G_i$ 的比例 $r_i$ 为：
$r_i = 1- \frac{(1-m) × (n-i)}{n-1}$
其中， $m$ 是最小的尺度比例（在 $(0, 1]$ 之间）， $n$ 代表分割结果数。基于上方公式的定义，比例值（ $r_1, r_2, ...,r_n$ ）由两个超参数 $n$ 和 $m$ 决定，它们从 $m$ 线性增加到 1 。

3. 损失函数

损失函数为：
$\lambda L_c + (1-\lambda) L_s$
其中 $L_c$ 和 $L_s$ 分别代表完整的文本实例和一个缩小的文本实例， $\lambda$ 平衡 $L_c$ 和 $L_s$ 之间的重要性。

在自然图像中，文本实例基本只占图像很小的区域，当使用二进制交叉熵时，这使得网络的预测更偏向于非文本区域。所以采用了 dice系数。这个dice系数 $D(S_i, G_i)$ 可以表示为：
$D(S_i, G_i) = \frac{2 \sum_{x,y}(S_{i,x,y} × G_{i,x,y})}{\sum_{x,y}S_{i,x,y}^2 + \sum_{x,y}G_{i,x,y}^2}$
其中 $S_{i, x,y}$ 和 $G_{i,x,y}$ 分别代表了像素 $(x, y) $ 在分割结果 $S_i$ 和Ground Truth $G_i$ 中的值。

此外，有许多类似于文本笔划的模式，例如栅栏，格子等。因此，文章在训练期间采用在线硬实例挖掘（OHEM）来更好地区分这些模式。

对于OHEM可以参考文章：https://blog.csdn.net/u014380165/article/details/73148073

$L_c$ 重点在于分割文本和非文本区域。把通过OHEM给出的training mask作为 $M $ ，则 $L_c$ 可以表示为：
$L_c = 1 - D(S_n \cdot M, G_n \cdot M)$
$L_s$ 是缩减文本区域的损失。因为他们是被完整文本实例的原始区域包围的，在分割结果 $S_n$ 中忽视非文本区域的像素去避免一定冗余。因此， $L_s$ 可以表示为：
$L_s = 1 - \frac{\sum_{i=1}^{n-1}D(S_i \cdot W, G_i \cdot W)}{n-1} \\ W_{x,y} = \begin{cases} 1, \quad if \;S_{n,x,y} \geq 0.5; \\ 0, \quad otherwise. \end{cases}$
其中 $W$ 是在 $S_n$ 中忽视非文本区域的 mask， $S_{n,x,y}$ 是 $S_n$ 中像素 $(x, y)$ 的值。

实现细节

训练：

使用 ImageNet 预训练的 ResNet，随机梯度下降（SGD）
数据：ICDAR2017 MLT（7200训练图像，1800张验证图像）
Batch Size：16
迭代次数：180K
学习率： $1 × 10^{-3}$ ，在60K和120K迭代步数时分别除以10
权重衰减： $5×10^{-4}$ ，0.99的Nesterov动量没有阻尼

其余数据集采用了两种训练策略：（1）从头训练。（2）在IC17-MLT上fine-tuning。从头开始训练时，batch size 16，迭代次数36K训练PSENet，初始学习率为 $1 × 10^{-3}$ ，在12K和24K迭代步数时分别除以10。在IC17-MLT上fine-tuning是，迭代次数是24K，初始学习率为 $1× 10^{-4}$ ，在12K迭代次数时除以10

损失函数：

$\lambda = 0.7$
OHEM的负样本比例设置为 3

数据增强：

图像随机缩放 ${0.5, 1.0, 2.0, 3.0\}$ ；
图像随机的水平翻转，在 $[-10^\circ, 10^\circ]$ 范围内随机旋转；
从转换的图像中随机剪切 $640 \times 640$ 大小的图像。

CharlesWu123

关注

5
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
0
评论
PSENet：Shape Robust Text Detection with Progressive Scale Expansion Network ---- 论文阅读笔记

方法简介PSENet：主干网络ResNet，基本框架FPN。亮点：提出了内核（把S1,S2,...,SnS_1,S_2,...,S_nS1,S2,...,Sn 中的文本实例的分割区域称为内核kernels）和渐进式扩展算法（Progressive Scale Expansion ）。优势：是一个基于像素分割的方法，能够精确地定位任意形状的文本实例提出了渐进式扩展算法，即使两个...
复制链接

扫一扫