LSAE：Learning Shape-Aware Embedding for Scene Text Detection 场景文本检测----论文阅读笔记

最新推荐文章于 2023-02-19 21:55:17 发布

CharlesWu123

最新推荐文章于 2023-02-19 21:55:17 发布

阅读量4.2k

点赞数 2

分类专栏：文本检测文章标签：文本检测

本文链接：https://blog.csdn.net/m0_38007695/article/details/95202702

版权

文本检测专栏收录该内容

20 篇文章

订阅专栏

论文题目：Learning Shape-Aware Embedding for Scene Text Detection

香港中文大学和腾讯优图共同发表在2019CVPR

论文地址：jiaya.me/papers/textdetection_cvpr19.pdf

贡献

提出了Shape-Aware Loss，可以很好的分割相邻的文本实例并且可以检测很大很长的文本实例（将图像像素映射到嵌入特征空间中，在该空间中，属于同一文本实例的像素会更加接近彼此，反之不同文本实例的像素将会远离彼此）。
提出了一种新的文本检测流程，可以检测任意形状的文本实例。
在三个有代表性的场景文本数据集（ICDAR15,，MSRA-TD500，and CTW1500）上表现优异。

网络结构

首先，给定输入图像，从ResNet50的中间层提取特征；接下来，有两个特征合并模块（镜像对称的FPN），在每个特征合并模块中，使用类似于 PANet 中的自适应特征池的特征合并策略通过上采样和像素相加的方式去结合从不同层提取的特征。这两个分离的特征合并模块通过共享权重形成了一组独立但互补的分支。一个分支产生嵌入映射（Embedding Map），在每个像素处有8通道嵌入特征用于区分文本实例，另一个分支生成用于分割的两个文本前景掩模（Center Map 和 Full Map）。最后，对嵌入特征和两个文本前景掩模进行处理获得最终预测的文本框。

[外链图片转存失败(img-zpSQT5rp-1562658585053)(./网络结构.png)]

嵌入形状感知（Shape-Aware Embedding）

为什么要使用嵌入形状感知？

相比与通用的目标检测，文本检测更难根据边界确定两个挨的很近的文本实例；
文本行的宽高比变化太大，如整张图像从单个文字到整个文本行。

嵌入分支接收来自一个特征合并模块的特征，以及由 x 和 y 坐标表示的另外的2通道位置信息。我们将特征合并模块的特征与位置信息相结合，并将它们分别传递给三个连续的3×3卷积层，分别具有32，16和8个输出通道。最终输出是每个像素的8通道嵌入特征。

损失函数（SA Loss）

方差损失和距离损失（应该可以说是类内间距和类外间距）：
$L_{var}(I_j) = \frac{1}{N_j}\sum_{i=1}^{N_j}max(W_{Scale_{(j)}} * |\mu_j - x_i| - \eta, 0)$

$L_{dist}(I_j, I_k) = max(\gamma - W_{Dist_(j, k)} * |\mu_j - \mu_k|, 0)$

$\mu_j$ 和 $\mu_k$ 分别是文本实例 $I_j$ 和 $I_k$ 的平均嵌入。 $x_i$ 是像素 $i$ 的嵌入特征， $N_j$ 是在 $I_j$ 中的像素的数量。 $\eta$ 和 $\gamma$ 代表方差损失和距离损失的边际，分别为 $0.5$ 和 $1.5$ 。

其中 $W_{Scale_{(j)}}$ 和 $W_{Dist_{(j, k)}}$ 是平衡权重，为了适应各种文字形状和邻接。
$W_{Scale{(j)}} = e^{\frac{max_{side(j)}}{2max(h,w)}}$

$W_{Dist_{(j,k)}} = (1 - 20e^{-\frac{min(Distance_{j,k})}{max(h,w)} * 10})$

$m a x (h, w)$ 是输入图像的较长边。 $max_{side(j)}$ 对于四边形文本是长边的长度，对于弯曲文本（带有多边形注释）是多边形顶点之间的最长距离。 $min(Distance_{j,k})$ 是文本实例 $I_j$ 和 $I_k$ 之间的最短距离。其中 $W_{Sacle_{(j)}} \in (1, 1.65)$ ， $W_{Dist_{(j,k)}}$ 的范围大致在 $(0.63, 1)$ 之间， $W_{Dist_{(j,k)}}$ 的缩放比例和 $W_{Scale_{(j)}}$ 相当以平衡他们对梯度的影响。

$W_{Scale_{(j)}}$ 与文本实例 $I_j$ 的尺度成比例，大的 $W_{Scale_{(j)}}$ 使得 $L_{var}(I_j)$ 变得重要，这会带来强大的力量把像素之间的距离拉近（pulling），以至于有较小的 $L_{var}(I_j)$ 。 $W_{Dist_{(j, k)}}$ 与文本实例 $I_j$ 和 $I_k$ 中最短的距离成比例，这会有额外的力量把两个离得近的文本实例给推开（pushing），距离变远。与 $W_{Scale_{(j)}}$ 相反，一个小的 $W_{Dist_{(j, k)}}$ （在 $I_j$ 和 $I_k$ 之间的短距离）会让 $L_{Dist}(I_j, I_k)$ 变大。

一张图像有 $N$ 个文本实例的话，最终的 SA Loss 可以写成：
$L_{SA} = \frac{1}{N}\sum_{j=1}^N L_{var}(I_j) + \frac{1}{N(N-1)}\sum_{j=1}^N\sum_{k=1,k\neq j}^N L_{dist}(I_j, I_k)$
SA Loss包含两个权重，它们根据尺度和邻接调节拉和推的力量。利用这两个权重，即使两个很近的文本实例（只有一两个像素的距离），聚集大的长的文本实例和分割比较近的文本实例也变得更加容易了。

分割掩码（Segmentation Masks）

分割分支通过对先前模块生成的特征使用两个单独的 3x3 卷积运算，生成两个一维通道的分割图：Full Map和Center Map。尽管两个分割图都表明像素是属于背景还是文本，但他们用于不同的目的。Full Map显示文本的整体位置和分布，Center Map仅捕获每个文本的中线区域，允许分离空间上紧密的文本实例，并为稍后的像素聚类提供合理的起点。

损失函数：

Full Map 和 Center Map都是通过最小化 Dice Loss来训练的：
$L_D = 1 - D(P, Q)$
其中， $P$ 和 $Q$ 分别代表预测（Prediction）和真值（Ground Truth）， $D (,)$ 是 Dice 系数，表示为：
$\frac{2 * \sum_{x, y}P_{x,y}Q_{x,y}}{\sum_{x,y}P_{x,y}^2 + \sum_{x,y}Q_{x,y}^2}$
最终损失是两个map的加权组合， $\lambda \in (0,1)$ :
$L_{Seq} = \lambda L_{CenterMap} + (1-\lambda)L_{FullMap}$
在论文中设置 $\lambda = 0.5$ ，给两个map相同的权重。注意，Center Map 的文本实例是从Full Map的文本实例中按比例 $\gamma$ 缩小而来的，一般 $\gamma = 0.7$ ，这和 EAST 是相同的。在Full Map中的文本实例不通过缩小去减少搜索空间，确保在有效的文本区域内执行后续聚类。

整体损失函数

$L = L_{SA} + L_{Seg}$

聚类处理

[外链图片转存失败(img-K1KlYGVU-1562658585055)(./像素聚类.png)]

首先使用DBSCAN来获得两组聚类（来自Full Map的 $C_{F_i}$ 和来自Center Map的 $C_{C_i} = \cup_j c_{ij}$ ）。然后通过以下逻辑将 $C_{F_i}$ 内部和 $C_{C_i}$ 外部的每个像素分配给最近的集群 $c_{ij} \in C_{C_i}$ 。将分配给了 $c_{ij}$ 的像素表示为 $p_{c_{ij}}$ ，如果这个像素和一个集群 $c_{ij} \in C_{C_i}$ 的最小嵌入距离比阈值 $\sigma$ 还要小，则这个像素被分配到最近的集群 $c_{ij}$ 作为 $p_{c_{ij}}$ 的一部分；否则这个像素就被忽视了（就是基于像素嵌入和属于Center Map的每个集群 $c_{ij}$ 的像素的平均嵌入之间的距离来分配每个像素（ $c_{ij} \in C_{C_i} \in C_{F_i}$ ））。在处理完集群 $C_{F_i}$ 中的所有像素之后，一个新的集群 $c_{ij}' = c_{ij} \cup p_{c_{ij}}$ 就形成了。对其他的中心集群 $c_{i j}$ 不断的循环这个操作直到处理完所有的中心集群。

最后，对于每个新集群 $c_{ij}'$ ，生成相应的最小边界框作为输出。

实现细节

主干网络 ResNet50（在ImageNet上预训练），对于每一个分支，在ResNet50的四个特征图（Max Pooling后）上使用四个具有128个输出通道 inception 模块。

使用数据增强。首先随机的将输入图像的长边缩放到 640 到 2560 之间，然后随机旋转，颠倒和翻转，最后从旋转后的图像中随机剪切 $640 \times 640 $ 的区域作为训练图像。包括 BN（Batch Normalization）和 OHEM（正样本和负样本比例为 $1 : 3 $ ）。全部的模块都在数据集 SynthText 上使用初始学习率 $1 e - 4 $ 做预训练。

有5个超参数。用来测量 Embedding Map 上的嵌入距离的阈值 $\sigma$ 和 $\tau$ ，并在后处理中分别从分割图像中获取确定的像素。用于NMS的 $I o U$ 阈值 $\delta$ 和用于DBSCAN的 $e p s$ 和 $M i n S a m p l e s$ 。论文中， $\sigma = 1.0, \tau = 0.7, \delta = 0.5$ ，并且 $(e p s, M i n S a m p l e s)$ 在Full Map上聚类时是 $(5, 8)$ ，在Center Map上聚类时是 $(1, 3)$ 。