高效而准确的场景文字检测 EAST

最新推荐文章于 2023-12-29 07:50:00 发布

w_suixin

最新推荐文章于 2023-12-29 07:50:00 发布

阅读量259

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/w_suixin/article/details/108036811

版权

3 篇文章 0 订阅

订阅专栏

EAST: An Efficient and Accurate Scene Text Detector
论文地址：
https://arxiv.org/abs/1704.03155v2

本方法的关键是一个全卷积神经网络输出密集的单词或者文本行（消除了候选区域推荐、文本分区等过程）。
后处理步骤只包含阈值操作和NMS。
网络经5次下采样后变为原来的 $\frac{1}{32}$ ，而后经过unpooling后进行concat操作、直到特征图变为原图大小的 $\frac{1}{4}$ ，特征通道由384-128-64-32。
预测输出分为2个部分：score map是置信度、和位置信息。位置信息用了两种方法：RBOX和QUAD。
RBOX中：text boxes是预测框的几何位置，分别表示到四条边的距离 $d_1,d_2,d_3,d_4$ ，text rotation angle是预测的角度值；QUAD中：8个值分别是四个顶点坐标的偏移量 $(\Delta x_i, \Delta y_i)$

损失函数如下： $L_s + \lambda _gL_g$
其中 $L_s$ 代表score map的损失， $L_g$ 代表几何坐标损失。 $\lambda_g$ 代表权重，实验中设置为1。
大多数检测方法，通过平衡采样来处理样本不平衡的问题。这样做可能提高性能，但是带来了超参数。本文使用类别平衡交叉熵损失函数：
$\begin{cases} L_s = balanced-xent(\hat{Y},Y^*) \\ L_s= -\beta Y^*log{\hat{Y}}-(1-\beta)(1-Y^*)log(1-\hat{Y}) \\ \end{cases}$
其中 $\beta$ 为正负样本的平衡因子, $Y^*$ 是ground truth。
$\beta = 1- \frac{\sum_{y^*\in{Y^*}}y^*}{|Y^*|}$
几何损失方面：文本检测的问题是，不同的文本大小区别很大， $L_1，L_2$ 损失将会导致Loss趋向于大的文本区域。因此，对于RBOX：使用IOU损失；对于QUAD：使用归一化的 $L_1$ 损失。
RBOX：
$L_{AABB}=-log IoU(\hat{R},R^*) = -log \frac{|\hat{R}\cap R^*|}{|\hat{R}\cup R^*|}\\ w_i=min(\hat{d_2},d_2^*)+min(\hat{d_4},d_4^*)\\ h_i=min(\hat{d_1},d_1^*)+min(\hat{d_3},d_3^*)\\$
注意：在计算RBOX损失时，IOU的计算中没有考虑角度。
$L_\theta(\hat{\theta},\theta^*)=1-cos(\hat{\theta}-\theta^*)\\ L_g=L_{AABB}+\lambda _{\theta}L_{\theta}$
QUAD：
$C_Q=\{ x_1,y_1,...,x_4,y_4\}$
$\begin{cases} L_g = L_{QUAD}(\hat{Q},Q^*)\\ L_g=min \sum_{c_i \in C_Q} \frac{smoothed_{L_1}(c_i-\widetilde{c_i} )}{8*N_{Q^*}} \end{cases}$
其中归一化项 $N_{Q^*}$ 是最短边的长度。

使用adam优化器，输入图像裁剪为512*512，minibatch为24，lr为0.001，27300个minibatch后变为之前的十分之一，0.00001后终止。
LA-NMS(Locality-Aware NMS)。预测出结果后，需要合并预测框，因为是密集预测，传统的NMS太慢。LA-NMS首先会逐行合并预测框

在这里插入图片描述

关注