首先,我先对DBNet的论文进行重点翻译解释说明,之后再对整个模型进行解剖,最后再对官方源码的实现方法,关键代码进行分析,所以篇幅也比较长,之间会附带一些例子说明,让你更深刻的了解DBNet。
论文解析:
Abstract
基于语义分割的文本检测模型得到广泛应用,因为其对各种形状的文本,如曲线文本,都有更好的精准度。然而,用于后处理生成区域的二值化对最终的检测效果起到关键影响,在这论文,提出了可微分二值化(Differentiable Binarization (DB)),它可以融入分割网络,结合DB模块进行训练,分割网络可以自适应学习二值化阈值。这不仅简化了后处理,而且提高了文本检测的性能。最终基于ResNet-18作为backbone的整个模型,在MSRA-TD500的数据集上,取得F-measure值为82.8,62FPS的检测效果。
Introduction
对于各种不规则的文本形状,语义分割具有更优秀的检测效果,因为其是基于像素点级别的。然而,基于分割的方法,需要复杂的后处理来对像素进行分类从而分割出文本实例,这也导致需要消耗更多的推断时间。举两个文本检测例子,P