paddleOCR基本算法解读(一)

2021SC@SDUSC

请添加图片描述

请添加图片描述

EAST解决问题:

传统Anchor-based算法检测小框再合并,流程复杂,损失进度,增加耗时

EAST特色
  1. 简洁的pipeline:FCN+Locality-Aware NMS,端到端训练
  2. 基于FCN像素级预测,直接得到文本行检测结果
EAST算法框架解读

请添加图片描述

左边是一个backbone,从这个backbone的四个stage会抽取出四个不同尺度的特征,在分支会对这些特征进行融合,得到最终的feature map。最大特点是在得到feature map之后会对每一个像素点进行预测,一方面会预测出它的score map,就是每一个像素点是不是文本,而另一方面会对feature map上的每一个像素点回归出他对应的文本框的位置信息,所以说他可以直接得到文本行的检测结果,这样就实现了一个端到端的训练。

DB解决问题:

基于分割的方法后处理过程复杂,耗时严重,对阈值敏感,影响效果。

DB特色:
  1. 可微的二值化
  2. 将二值化阈值加入训练中学习
  3. SOTA效果,更快的速度
DB算法框架解读

请添加图片描述

左侧首先是一个骨干网络,从不同的stage抽取特征然后做融合得到一个feature map,得到feature map之后会预测两个结果,一个是概率图,就是常规的基于分割的一些方法预测的一个结果,此外还会预测一个边缘图,就是阈值图,这两个图的监督信息是事先生成好的,这个概率图就是文本区域,阈值图就是对文本区域进行一个收缩和扩张,然后求一个差值,就得到它的边界,得到阈值图和概率图之后,使用二值化公式,得到近似的二值图,虚线框里的过程实际是模拟了后处理二值化的过程,将二值化加入了整个训练当中,训练时会针对这三个map分别计算损失,最后求一个加权的总的损失。

SAST解决问题
  1. 紧密相邻文本行不好区分
  2. 长文本实例容易被碎片化
SAST特点
  1. 多任务学习多重集合属性
  2. 高层知识与底层像素信息相结合重建文本区域
  3. 可检测任意形态文字
SAST解读

请添加图片描述

首先a是一个基于分割的方法预测出来的mark,低层像素信息断开了,我们还会针对每一个像素点回归出一个对应的边框,每个像素点对应一个外接矩形框做一个nms之后,最后留下了黄色的框和红色的框。而这个框就是所说的高层的知识,比较粗糙。接下来会对每个像素点去找它的最近邻,上面的几个点找到的是红色框的中心,下面的几个点找到的是黄色框的中心,这样我们就会判断上面的两节是属于一个文本框。

  • 2
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值