论文地址:https://arxiv.org/pdf/1911.08947.pdf
源码地址:https://github.com/MhLiao/DB
DBNet论文全称 : Real-time Scene Text Detection with Differentiable Binarization. 它是华中科技大学白翔老师团队发表在AAAI2020上的一篇文本检测文章,相比于近年来的一些自然场景文本检测算法,准确率和速度都再创新高。以下是该篇论文中给出的近年来几个常见的自然场景文本检测算法在速度和准确率上的比较,由图中可见DBNet算法在速度和准确率上均明显优于其他算法。
1,DBNet网络结构
DBNet网络结构图
上图左边是一个标准的FPN网络结构,通过先下采样再上采样同时融合不同层级的特征图最终得到原图1/4的特征图F,再通过特征图F得到binary map(B)。在训练期间对P、T、B进行监督训练,P和B是用的相同的监督信号(label)。在推理时,只需要P或B就可以得到文本框。
网络输出:
probability map, ,代表像素点是文本的概率
threshold map, ,每个像素点的阈值
binary map, ,由1,2计算得到,计算公式为DB公式
2,创新点
a): 文中指出传统文本检测算法主要按下图中蓝色线(包括虚线和实线)所示思路进行处理:
首先,通过设置一个固定阈值将分割网络训练得到的概率图(segment