文本检测（Text Detection）网络论文的简易解读——DBNET

最新推荐文章于 2024-07-17 14:10:37 发布

Rabbitdeng1009

最新推荐文章于 2024-07-17 14:10:37 发布

阅读量1k

点赞数 1

分类专栏：深度学习文本检测文章标签：深度学习神经网络人工智能计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41103479/article/details/119757091

版权

深度学习同时被 2 个专栏收录

9 篇文章 1 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

论文标题：Real-time Scene Text Detection with Differentiable Binarization

在这里放出论文arxiv链接

模型结构

可微分二值化模块（Differentiable Binarization module)

论文中最重要的即是提出了可微分二值化模块（Differentiable Binarization module，简称DB module），如下图（来源于论文中），SB则是我们在区分前景，后景中，使用的阶跃函数，式（1）。t为threshold，极限值；Pi，j代表坐标（i，j）的像素值。显然，这个阶跃函数是不可微分的，也代表着在模型学习的过程中，后向传播时也无法被优化。

为了改变这个问题，论文提出了可微分二值化模块，图像即上面的DB。k是放大系数（amplifying factor）论文中经验主义地将其设为50。

论文原话概括DB模块的作用：

This approximate binarization function behaves similar to the standard binarization function but is differentiable thus can be optimized along with the segmentation network in the training period.

“这个近似二值化函数效果与标准二值化函数类似，但它可微分，因此在分割网络的训练时期，可以被优化。”

式（2）中没有t，为什么呢？因为函数中类似的极限是通过学习改变的，不是我们事先设定好的。

可变卷积（Deformable convolution）

论文使用了可变卷积，也将其应用在backbone网络中。

标签生成（Label generation）

论文受到PSENET论文启发，将数据集中文本标签进行了缩放操作。可能性图（probability map）是由标签缩小得到。

极限图（threshold map）也是由同样的D进行扩大后的区域Gd减去最近距离的片段区域G得到。(d)图既是我们监督学习过程得到的极限图。

优化（Optimization）

损失函数L是三个损失值的加权和，Ls是可能性图的损失，Lb是二值化图的损失，Lt是极限图的损失。

α和β均是我们按照经验先手设置的。

对于Ls与Lb我们都使用BCE loss（binary cross-entropy loss），而为了应对计算机视觉领域常有的一个问题“正样本负样本数量不均”，使用了hard negative mining,

Sl则是代表按照正样本比负样本为1：3的比例采样后的数据集。

Lt则是L1距离,预测值减去标签值的绝对值之和。标签label则是Gd，扩张区域里面的那一个。

在推测阶段，预测框形成分三步：①对可能性图或者近似二值化图进行定值极限的二值化获得一个二值化的图。②将连通的区域取得。③将这个区域进行扩展，按照D'。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
文本检测（Text Detection）网络论文的简易解读——DBNET

论文标题：Real-time Scene Text Detection with Differentiable Binarization在这里放出论文arxiv链接可微分二值化模块（Differentiable Binarization module) 论文中最重要的即是提出了可微分二值化模块（Differentiable Binarization module，简称DB module），如下图（来源于论文中），SB则是我们在区分前景，后景中，使用的阶跃函数，式（1）。t为thre...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。