最易理解的DB算法(Differentiable Binarization)

最新推荐文章于 2024-06-06 10:03:44 发布

■D

最新推荐文章于 2024-06-06 10:03:44 发布

阅读量8.1k

点赞数 7

文章标签：神经网络自然语言处理自动驾驶 tensorflow

本文链接：https://blog.csdn.net/fan15945028042/article/details/109222444

版权

2.2.2 DB算法(Differentiable Binarization)

2.2.2.1概述

近年，由于基于分割的方法对各种形状（弯曲、竖直、多方向）的场景文本检测更加精确，因此，基于分割的方法在场景文本检测领域很流行。
DB（Differentiable Binarization）算法全称可微分二值化处理，基于分割的场景文本检测即把分割方法产生的概率图（热力图）转化为边界框和文字区域，其中会包含二值化的后处理过程。二值化的过程非常关键，常规二值化操作通过设定固定的阈值，然而固定的阈值难以适应复杂多变的检测场景。本文作者提出了一种可微分的二值化操作，通过将二值化操作插入到分割网络中进行组合优化，从而实现阈值在热力图各处的自适应。
DB在场景文本检测上的效果
在这里插入图片描述
DB方法整体如图所示：

如上图方法结构图所示，首先，图片通过特征金字塔结构的resnet50-vd层（详细结构参考2.2.4），通过上采样的方式将特征金字塔的输出变换为同一尺寸，并级联(cascade)产生特征及特征层；然后，通过特征层预测概率图（probability map）及文本概率图，用于计算该像素属于文本的概率形成文本概率图，然后根据各像素动态阈值形成动态阈值图，最后，通过文本概率图和动态阈值图生成DB二值图，根据DB二值图拓展标签生成，形成文本框。
　　在训练阶段，监督被应用在阈值图、概率图和近似的二值图上，其中后两者共享同一个监督；在推理阶段，则可以从后两者轻松获取边界框。本文档通过可微分二值化、自适应阈值、标签生成、优化等4方面展开叙述。

2.2.2.3可微分二值化

下式表示了传统二值化操作的方法，其中P表示概率图，t表示划分阈值。通过固定的阈值对网络输出的概率图进行划分。由于这种二值化方式是不可微分的，因此它无法在训练阶段随着分割网络被优化。
在这里插入图片描述
因此，一个开源作者提出了一个approximate step function，用于将二值化操作融合于分割网络中。如下式所示，建立了概率图P和阈值图T与二值化图之间的关系，使得二值化的计算可微，从而可以满足梯度反向传播的条件。
在这里插入图片描述
其中，k为放大因子，依经验设定为50.带有自适应阈值的可微分二值化不仅有助于把文字区域与背景区分开，而且还能把相近的实例分离开来。

2.2.2.2自适应阈值

在可微分二值化中，将阈值图、概率图建立可微的关系生成二值图实际上已经解决了阈值自适应的问题。而下图显示的是阈值图在有、无监督下的表现。
即使没有监督的阈值图，阈值图也能突出文本边界区域。这表明像边界一样的阈值图有利于最终的结果。因此，作者在阈值图上应用边界监督来更好地指导。
在这里插入图片描述
上图中，图a为原图，图b为概率图，图c为无监督的阈值图，图d为有监督的阈值图。

2.2.2.3标签的生成

在这里插入图片描述
对于概率图标签的生成，作者受到了PSENet的启发。给定一张文字图像，其文本区域的每个多边形由一组线段描述：

其中，n表示顶点的数量。
通过 Vatti clipping 算法 (Vati 1992)缩小多边形。收缩偏移量D可以通过周长L和面积A计算：
在这里插入图片描述
其中，r是收缩因子，依经验设置为0.4.

2.2.2.4优化

损失函数是通过概率图损失Ls - 二值图损失Lb - 阈值图Lt构成的带有权重的损失。

在这里插入图片描述
其中，α，β分别设置为1.0和10.
　　Ls和Lb使用二值交叉熵损失函数：

其中，Sl表示正负样本比例为1:3的样本集。
Lt使用L1距离损失函数。

■D

关注

7
点赞
踩
36

收藏

觉得还不错? 一键收藏
1
评论
最易理解的DB算法(Differentiable Binarization)

2.2.2 DB算法(Differentiable Binarization)2.2.2.1概述近年，由于基于分割的方法对各种形状（弯曲、竖直、多方向）的场景文本检测更加精确，因此，基于分割的方法在场景文本检测领域很流行。DB（Differentiable Binarization）算法全称可微分二值化处理，基于分割的场景文本检测即把分割方法产生的概率图（热力图）转化为边界框和文字区域，其中会包含二值化的后处理过程。二值化的过程非常关键，常规二值化操作通过设定固定的阈值，然而固定的阈值难以适应复杂多变
复制链接

扫一扫