paddleOCR基本算法解读（一）

最新推荐文章于 2025-03-28 17:51:03 发布

shy2218

最新推荐文章于 2025-03-28 17:51:03 发布

阅读量4.8k

点赞数 4

文章标签：算法

本文链接：https://blog.csdn.net/shy2218/article/details/120961528

版权

2021SC@SDUSC 专栏收录该内容

13 篇文章

订阅专栏

2021SC@SDUSC

请添加图片描述

EAST解决问题：

传统Anchor-based算法检测小框再合并，流程复杂，损失进度，增加耗时

EAST特色

简洁的pipeline：FCN+Locality-Aware NMS，端到端训练
基于FCN像素级预测，直接得到文本行检测结果

EAST算法框架解读

请添加图片描述

左边是一个backbone，从这个backbone的四个stage会抽取出四个不同尺度的特征，在分支会对这些特征进行融合，得到最终的feature map。最大特点是在得到feature map之后会对每一个像素点进行预测，一方面会预测出它的score map，就是每一个像素点是不是文本，而另一方面会对feature map上的每一个像素点回归出他对应的文本框的位置信息，所以说他可以直接得到文本行的检测结果，这样就实现了一个端到端的训练。

DB解决问题：

基于分割的方法后处理过程复杂，耗时严重，对阈值敏感，影响效果。

DB特色：

可微的二值化
将二值化阈值加入训练中学习
SOTA效果，更快的速度

DB算法框架解读

请添加图片描述

左侧首先是一个骨干网络，从不同的stage抽取特征然后做融合得到一个feature map，得到feature map之后会预测两个结果，一个是概率图，就是常规的基于分割的一些方法预测的一个结果，此外还会预测一个边缘图，就是阈值图，这两个图的监督信息是事先生成好的，这个概率图就是文本区域，阈值图就是对文本区域进行一个收缩和扩张，然后求一个差值，就得到它的边界，得到阈值图和概率图之后，使用二值化公式，得到近似的二值图，虚线框里的过程实际是模拟了后处理二值化的过程，将二值化加入了整个训练当中，训练时会针对这三个map分别计算损失，最后求一个加权的总的损失。

SAST解决问题

紧密相邻文本行不好区分
长文本实例容易被碎片化

SAST特点

多任务学习多重集合属性
高层知识与底层像素信息相结合重建文本区域
可检测任意形态文字

SAST解读

请添加图片描述

首先a是一个基于分割的方法预测出来的mark，低层像素信息断开了，我们还会针对每一个像素点回归出一个对应的边框，每个像素点对应一个外接矩形框做一个nms之后，最后留下了黄色的框和红色的框。而这个框就是所说的高层的知识，比较粗糙。接下来会对每个像素点去找它的最近邻，上面的几个点找到的是红色框的中心，下面的几个点找到的是黄色框的中心，这样我们就会判断上面的两节是属于一个文本框。