Real-time Scene Text Detection with Differentiable Binarization

最新推荐文章于 2024-02-18 16:05:31 发布

文件夹66

最新推荐文章于 2024-02-18 16:05:31 发布

阅读量324

点赞数

分类专栏： object detection & OCR

本文链接：https://blog.csdn.net/qq_42275073/article/details/119667937

版权

object detection & OCR 专栏收录该内容

7 篇文章 2 订阅

订阅专栏

论文地址：Real-time Scene Text Detection with Differentiable Binarization
又是白翔老师组的产出。tql
这篇文章仍然是基于语义分割的文本检测算法。

概述

目前，基于语义分割的方法很多，它们可以更准确地描述不同形状的文本。但是一般这些方法都会配有二值化的post processing，将概率的分割图转化为文本或者非文本区域。作者这里提出了一个Differentiable Binarization (DB)，可以自适应地设置阈值来做二值化处理，不仅能够简化post processing，而且还能够增强文本检测的效果。并且，以前的binarization操作是在inference的post processing部分，而这里，作者直接把这个操作放到分割任务一块，联合优化。

普通的二值化操作无非就是先预设一个阈值，对于预测得到的每个pixel的概率值，如果超过这个阈值就设为1，否则就是0，如果把这个操作放在优化过程中，可以发现这个操作并不可微，所以作者提出了DB，设计了一个可微的二值化操作。

方法

在这里插入图片描述

Differentiable binarization

首先看标准的二值化操作：
$P\in R^{H\times W}$ 是一个概率图， $t$ 是预设的阈值。
在这里插入图片描述

作者设计的DB：
$\hat B_{i,j}=\frac{1}{1+e^{-k(P_{i,j}-T_{i,j})}}$ 其中， $T_{i,j}$ 是一个阈值矩阵在 $(i, j)$ 处的值。 $k$ 是一个因子，这里根据经验设置为50。

label generation

我们需要得到ground truth的两个map：probability map和threshold map。

数据集一般提供了文本的形状的多边形节点表示 $G=\{S_k\}^n_{k=1}$ ， $S_k$ 表示第 $k$ 个文本， $n$ 是指每个文本区域的多边形由几个corner组成。

probability map：将 $G$ 向内缩小偏移量 $D$ 得到 $G_s$ ， $G_s$ 内部标记为1，外面标记为0；

threshold map：将 $G$ 向外放大偏移量 $D$ 得到 $G_d$ ， $G_d$ 和 $G_s$ 之间的区域作为文本的边界，这其中的每个点对应的值由该点到 $G$ 最近的一条边的距离得到。

$D$ 的计算和PSENet中类似：
$D=\frac{A(1-r^2)}{L}$

虽然binary map没有在论文的label generation部分提到，但其在损失函数的计算中出现了，貌似binary map和probability map一样？待看完代码求证后再记录。

损失函数

$L=L_s+\alpha \times L_b+\beta \times L_t$ 前面两个是probability map和binary map的损失函数，这里使用的是BCE。且正负像素点的采样按照1：3。
最后那个是threshold map，使用L1范数。

Inference

Inference阶段就是要根据得到的几个map，计算出文本区域的bounding box。

三个步骤：

对probability map或者approximate binary map二值化，得到一个binary map；
对上步得到的binary map提取出每个联通分量；
因为前面我们计算的时候，将文本区域向内偏移了一个变量 $D$ ，这里inference时需要再进行向外的偏移。这时的偏移量是 $D^{'}$ ，且 $D'=\frac{A'\times r'}{L'}$ 。

文件夹66

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Real-time Scene Text Detection with Differentiable Binarization

论文地址：Real-time Scene Text Detection with Differentiable Binarization又是白翔老师组的产出。tql这篇文章仍然是基于语义分割的文本检测算法。文章目录概述方法Differentiable binarizationlabel generation损失函数Inference概述目前，基于语义分割的方法很多，它们可以更准确地描述不同形状的文本。但是一般这些方法都会配有二值化的post processing，将概率的分割图转化为文本或者非文本
复制链接

扫一扫