DB算法分析《Real-time Scene Text Detection with Differentiable Binarization》

最新推荐文章于 2024-01-15 10:29:00 发布

智能血压计

最新推荐文章于 2024-01-15 10:29:00 发布

阅读量3.3k

点赞数 4

分类专栏： OCR 文字检测图像识别文章标签： pytorch 神经网络深度学习

本文链接：https://blog.csdn.net/lz867422770/article/details/104296599

版权

15 篇文章 1 订阅

订阅专栏

11 篇文章 3 订阅

订阅专栏

11 篇文章 1 订阅

订阅专栏

算法架构图：

总览，主要包含三个部分：
- backbone提取特征（特征金字塔）
- 特征金字塔被上采样到相同尺度构建一个特征图F
- 使用F来预测概率图P和阈值图T，并通过P和T来生成二值图B
一些细节：
- 预设的图片大小【640，640】
- 在训练阶段：P、T、B都会进行loss计算，并bp，其中P、B会使用相同的标签
- 在推理阶段，P、B都可以被用于计算bbox
- DB模块的优势：
  - 帮助区分非常近的模块
  - 自己的理解其实就是对边界做了加强学习，让边界更准了，同时免去了复杂的后处理，连通区域的计算其实就在里面了
- 阈值图T的学习可以监督或者非监督，监督效果更好
- 阈值图T的用法是，用于对P的二值化
- 关于DB模块
  - 损失函数，及其导数：

损失函数：
- loss计算方式这里，其实就是交叉熵，因为x受T影响，bp到P时，可以理解为P会影响最终的结果，同时P也可以被学习
- 其中阿尔法为1.0，贝塔为10，Ls、Lb为负采样交叉熵损失，采样比1:3；Lt为平滑后的L1损失，只计算Gd内部的像素（可能是为了避免样本不平衡的问题，类似于负采样）