OCR方法总结

最新推荐文章于 2025-03-28 17:03:28 发布

lrwin_bian

最新推荐文章于 2025-03-28 17:03:28 发布

阅读量2.9k

点赞数

文章标签：计算机视觉深度学习机器学习人工智能

本文链接：https://blog.csdn.net/bianlongpeng/article/details/121095766

版权

一、two-stage方法

two-stage的方法把检测任务和识别任务独立开，先通过检测任务框出字符块，再通过识别任务识别字符是什么

CTPN(水平方向)
1. 将文本检测任务转化为一连串小尺度文本框的检测
2. 引入RNN提升文本检测的效果
3. Side-refinement(边界优化)，提升文本框边界预测精准度
YOLOV3(水平方向)
1. 多尺度预测(引入FPN)
2. 更好的基础分类网络（darknet-53，类似于ResNet引入残差结构）
3. 分类器不再使用softmax，分类损失采用binary cross-entropy loss
EAST(倾斜方向)
1. 该方法采用FCN+NMS，消除中间过程冗余，减少检测时间
2. 检测的形状可以是任意形状的四边形：即可以是旋转举行，也可以是普通四边形
3. 采用Locality-Aware NMS来对生成的几何进行过滤(加权nms)
Seglink(倾斜方向)
1. 将文本检测任务转化为一连串小尺度文本框的检测
2. 引入RNN提升文本检测的效果
3. Side-refinement(边界优化)，提升文本框边界预测精准度