OCR方法总结

一、two-stage方法

1.1 pipeline 检测 + 识别

two-stage的方法把检测任务和识别任务独立开,先通过检测任务框出字符块,再通过识别任务识别字符是什么

a. 检测

  • CTPN(水平方向)
    1. 将文本检测任务转化为一连串小尺度文本框的检测
    2. 引入RNN提升文本检测的效果
    3. Side-refinement(边界优化),提升文本框边界预测精准度
  • YOLOV3(水平方向)
    1. 多尺度预测(引入FPN)
    2. 更好的基础分类网络(darknet-53,类似于ResNet引入残差结构)
    3. 分类器不再使用softmax,分类损失采用binary cross-entropy loss
  • EAST(倾斜方向)
    1. 该方法采用FCN+NMS,消除中间过程冗余,减少检测时间
    2. 检测的形状可以是任意形状的四边形:即可以是旋转举行,也可以是普通四边形
    3. 采用Locality-Aware NMS来对生成的几何进行过滤(加权nms)
  • Seglink(倾斜方向)
    1. 将文本检测任务转化为一连串小尺度文本框的检测
    2. 引入RNN提升文本检测的效果
    3. Side-refinement(边界优化),提升文本框边界预测精准度

b. 识别

  • CRNN
    1. CNN提取图像卷积特征
    2. LSTM进一步提取图像卷积特征中的序列特征
    3. CTC解决训练时字符无法对齐的问题

二、one-stage方法

  • FOTS
    1. end-to-end框架解决角度文本端到端识别问题
    2. RoI Rotate模块的运用,桥接了detection和recognition
    3. 模型小、速度快、效果好

三、Reference

https://zhuanlan.zhihu.com/p/37504120
https://zhuanlan.zhihu.com/p/65707543

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值