DBNet阅读笔记

最新推荐文章于 2024-05-31 09:55:56 发布

javastart

最新推荐文章于 2024-05-31 09:55:56 发布

阅读量6k

点赞数 1

分类专栏：深度学习图象处理

原文链接：https://zhuanlan.zhihu.com/p/94677957

版权

深度学习同时被 2 个专栏收录

139 篇文章 23 订阅

订阅专栏

107 篇文章 17 订阅

订阅专栏

原网址：https://zhuanlan.zhihu.com/p/94677957

Real-time Scene Text Detection with Differentiable Binarization是华科白翔老师团队发表在AAAI2020上的一篇文本检测文章，在PAN的效果上更近一步，效果和性能都再创新高。文章地址

https://arxiv.org/pdf/1911.08947.pdfarxiv.org

官方代码

https://github.com/MhLiao/DBgithub.com

我的实现

https://github.com/WenmuZhou/DBNet.pytorchgithub.com

网络结构

标准FPN结构，不过看图，最后两个输出是由不同的输出头给出。作者在resnet的stage2-4中使用Deformable convolution来更好的检测长文本。

Differentiable binarization

本文的最大创新点。在基于分割的文本检测网络中，最终的二值化map都是使用的固定阈值来获取，并且阈值不同对性能影响较大。本文中，对每一个像素点进行自适应二值化，二值化阈值由网络学习得到，彻底将二值化这一步骤加入到网络里一起训练，这样最终的输出图对于阈值就会非常鲁棒。

二值化公式如下，

其实就是一个带系数的sigmoid，和sigmoid的对比如下：

和标准二值化的对比，图a的SB,DB图例应该写反了。

使用DB模块之后，二值化操作就变成了可微的，可以加到网络里一起训练。

网络输出

probability map，，代表像素点是文本的概率
threshold map，，每个像素点的阈值
binary map，，由1,2计算得到，计算公式为DB公式

loss函数

[公式]

[公式] 是收缩之后文本实例的loss，是二值化之后的收缩文本实例loss，是二值化阈值map的loss，两个值，这里使用10的weight是因为的结果会影响到的结果。都使用带OHEM的bceloss，使用L1loss(后面可以用smoothL1loss试一下)。

后处理

由于threshold map的存在，probability map的边界可以学习的很好，因此可以直接按照收缩的方式（Vatti clipping algorithm）扩张回去，公式为：

[公式]

[公式] 是每条边向外扩充的长度，分别是probability map上文本框的面积和周长，是设置为1.5的常量(对应收缩的比例0.4)。

label制作

probability map, 按照pse的方式制作即可，收缩比例设置为0.4
threshold map, 将文本框分别向内向外收缩和扩张d(根据第一步收缩时计算得到)个像素，然后计算收缩框和扩张框之间差集部分里每个像素点到原始图像边界的归一化距离，此处有个问题，两个邻近的文本框，在扩张后会重叠，这种情况下重叠部分像素点的距离使用哪个文本框的？

下面是我制作的label

实验结果

Dconv 和DB的消融实验

对threshold map添加监督信息的对比实验

Limitation

目前还无法处理，文本内包含文本的情况

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
DBNet阅读笔记

原网址：https://zhuanlan.zhihu.com/p/94677957Real-time Scene Text Detection with Differentiable Binarization是华科白翔老师团队发表在AAAI2020上的一篇文本检测文章，在PAN的效果上更近一步，效果和性能都再创新高。文章地址https://arxiv.org/pdf/1911.08947....
复制链接

扫一扫

专栏目录

javastart CSDN认证博客专家 CSDN认证企业博客

码龄21年

396: 原创

1万+: 周排名

370: 总排名

417万+: 访问

: 等级

3万+: 积分

2723: 粉丝

2724: 获赞

657: 评论

1万+: 收藏

私信

关注

热门文章

分类专栏

最新评论

基于 Openpose 实现人体动作识别
[太阳]: 能在分享一次吗？链接过期了
pytorch剪枝
_mengmeng_: 麻烦请问一下，这个问题应该怎么解决啊？谢谢
pytorch剪枝
Alice_176: TypeError: global_unstructured() missing 1 required positional argument: 'pruning_method'。搬运的有错误。。。。而且module不是可迭代的对象
大语言模型推理加速技术：模型压缩篇
sweet&spicy: 感谢作者的分享，受益匪浅。另外，有个问题请教下，本文中说：SmoothQuant是per-tensor粒度的，整个矩阵共享放缩的scale，但我在原文中第4章第1段话中就看到了这样的描述：we propose to “smooth” the input activation by dividing it by a per-channel smoothing factor s \in R^{C_i}. 说明smooth quant 应该也是per_channel的粒度？那么smooth quant 和AWQ的主要区别应该就是在缩放系数scale的构造方式？
L40S解析，同是AD102核心为什么强于A800(A100)近2成性能
weixin_39963973: 您好，咨询一下，L40和4090性能对比，是通过哪个模型测试，token大概多少

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。