【OCR入门】一、基于深度学习的OCR技术导论和PaddleOCR

满船清梦压星河HK

已于 2022-05-21 10:55:39 修改

阅读量5.5k

点赞数 12

分类专栏： # OCR（文本检测+识别）文章标签： OCR 光学字符检测 PaddleOCR

于 2022-05-20 23:02:04 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38253797/article/details/124891195

版权

OCR（文本检测+识别）专栏收录该内容

8 篇文章

订阅专栏

目录

一、OCR简介
二、OCR前言技术
三、PaddleOCR
四、想说的话
Reference

一、OCR简介

1.1、OCR是什么？

OCR（Optical Character Recognition，光学字符识别）是计算机视觉最重要的方向之一。传统的OCR一般指面向文档的识别，现在一般指场景文字识别，主要面向自然场景。

我觉得OCR还可以算是CV和NLP的一个中间商，通过OCR技术将CV图像中的一些字符检测出来，再用NLP解析文字的含义。

1.2、OCR的使用场景

OCR应用场景非常多：
在这里插入图片描述
OCR还可以作为多模态数据做一些更复杂的任务：

1.3、OCR的技术难点

难点大概可以分为算法层和应用层两方面。
在这里插入图片描述
应用层：模型大小和模型性能如何平衡？精度和速度的平衡？

二、OCR前言技术

2.1、文本检测

概念：把文本区域从图片区域中框出来。
在这里插入图片描述

2.2、文本识别

概念：将文字内容识别出来（就是认字，认出来这是什么字）

文本识别按识别文本的形状可以分为：规则文本识别和不规则文本识别两大类。

文本识别按最终识别结果的处理方式不同（解码方式的不同）可以分为：基于CTC和基于Attention两大类。

基于CTC：CRNN+CTC
主要创新：引入没有意义的空格字符。因为识别存在一个问题：时序特征的维度是固定的，但是最终要预测的图像特征是不固定的。所有引入空格字符，每一个时序特征都可以预测出一个字符，最后得到结果。
缺点：但是每个时序特征是单独解码的（Softmax），所以解码时并没有利用上下文信息，对不规则形状文本识别效果差。
基于Attention：Seq2Seq+attention
解码时利用了上下文信息，精度较高，但是过长或过短文本的识别效果较差。
其实还要一种分类：基于字符分割的方法。优点是可以解决弯曲文本和不规则文本，但是对字符的标注要求很高。
今年还有一种比较火的方法：基于transformer的方法。可以解决CNN在长依赖建模的局限性。

2.3、文档的结构化识别

需求量很大，技术也比较难。

主要可分为版面分析、表格识别、关键信息提取三个技术方面。

版面分析：把文档的内容划分为不同的区域（方法：目标检测难点相对较低）；
表格识别：把图片表格转为可编辑的excel表格。问题：表格本身版式很多，无线表格，单元格合并。（方法：基于启发式规则、基于CNN、基于GCN、端到端难度高）；
关键信息提取（难度高）

2.4、其他OCR相关工作

端到端文本识别（火热）
OCR中的图像预处理技术
OCR数据合成

三、PaddleOCR

在这里插入图片描述

PPOCR：中英文检测模型

在这里插入图片描述
模型部署

四、想说的话

一个经典的OCR模型，一般可以分为文本检测和文本识别两个阶段。PaddleOCR的低层也是这样设计的。

写这个系列博客主要是为了记录下自己学OCR的过程，因为精力有限，后面主要的学习都只围绕文本检测和文本识别两个方面。

Reference

基于深度学习的OCR技术导论（上）
基于深度学习的OCR技术导论（下）

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。