【基础介绍】【OCR】

风等雨归期

于 2024-10-09 16:22:29 发布

阅读量471

点赞数 11

分类专栏：随笔 OCR 文章标签： ocr

yongjie

本文链接：https://blog.csdn.net/qq_32342205/article/details/142789584

版权

随笔同时被 2 个专栏收录

12 篇文章 1 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

注：若有冒犯，请问候留言，会尽快删除。

文章目录

背景介绍

知乎上看到一篇写的不错的文章，介绍了OCR 的基本概念和历史实现思路。
在此进行笔记摘录，笔记性质，无意冒犯。
原文链接：https://www.zhihu.com/question/366685668/answer/3608456631

OCR基本概念介绍

OCR（Optical Character Recognition），光学字符识别。
目的：用计算机看图识字。
- 这活儿听上去不难，小时候上课抄作业咱不也靠眼睛一扫一抄吗？不过计算机就得靠算法来做这个活儿。（原作者描述的很形象，哈哈）

基础实现算法

最早的OCR算法基本都是基于图像处理的。（预处理+模板匹配）
- 边缘检测、灰度处理。
- 然后配上模式识别算法，比如模板匹配、特征提取啥的。
  - 你可以理解成就是把字形切成一块一块的，然后跟它数据库里存的样本对比，看看哪个像，哪个不像。
这些传统的算法好处是速度快，资源占用少。
但缺点也明显：一碰到字歪了、字模糊了、或者字形不规则了，它就开始抓瞎，结果基本上就是“一看就是字，但就是不认识”。所以这玩意儿在应付像咱们手机拍的这种歪歪扭扭的图像时，基本等于玩儿完。

深度学习方法

1. CNN（卷积神经网络）

CNN算是深度学习里的一员猛将了，大家都用它来做图像处理，OCR当然也不例外。CNN能干的活就是搞图像特征提取，它能自动从图像里找出那些有用的信息，比如边缘、线条、曲线啥的，再经过几层卷积，把这些信息逐层抽象，最后变成对字符的理解。
就像你拍一张图，CNN能从图像的不同部分提取到不同的特征，然后把这些特征汇总，搞出个“这玩意儿是个字”的结论来。

2. RNN（循环神经网络） & LSTM（长短期记忆网络）

光提取特征还不够，因为OCR不只是识别单个字符，还得考虑字符的顺序，这时候RNN就上场了。RNN擅长处理序列数据，比如文字、语音啥的，它能记住前面的信息，用来影响后面的识别。这就像你在看一段文字时，前后的字有关系嘛。
LSTM是RNN的加强版，主要解决RNN容易忘事儿的问题。用了LSTM后，网络就能记住更长的上下文信息，识别结果更准了。

3. Attention机制

最后，还有个神器叫Attention机制，这玩意儿能让模型自动关注图像里那些重要的部分，比如一张图里哪儿有字，它就盯着哪儿看，不重要的地方一笔带过。这就像你在开会时，重点内容多看两眼，废话直接略过。
Attention机制的加入让OCR模型在处理复杂图像时，识别效率和准确度都有了质的飞跃。

顶尖算法组合拳：CRNN + CTC

现在说说最顶尖的OCR算法，那肯定少不了CRNN（卷积循环神经网络）+ CTC（连接时序分类）。这套组合拳可是当前OCR领域的标杆，很多大厂的OCR引擎背后都是它。
CRNN结合了CNN和RNN的优点，前面用CNN提取图像特征，后面用RNN处理字符序列，简直就是天作之合。而CTC呢，专门处理序列对齐的问题，因为有时候识别结果跟输入长度对不上，这时候CTC就能帮助网络在不需要手工对齐的情况下，搞定文字识别。
你用 OCR时，哪怕图片模糊不清或者字儿东倒西歪，这套算法组合依然能搞出个准儿来。

未来发展：Transformer登场（Vision Transformer，ViT）

不过话说回来，科技是不断进步的。现在Transformer架构
（对，你没看错，就是那个火遍NLP的Transformer）也开始在OCR领域展露头角。比如Vision Transformer（ViT）就是用来处理图像的Transformer变种，这玩意儿比传统的CNN + RNN组合更牛，可以更好地处理复杂图像和长序列。
未来几年，估计Transformer架构会成为OCR的新宠，反正现在大厂都在疯狂搞这套东西，谁家搞得快，搞得好，谁就能在OCR领域继续称王。

总结

现在最顶尖的OCR算法，一定是深度学习的天下，像CRNN + CTC这种组合是目前的主流，但未来Transformer架构肯定会慢慢抢占市场。

END

风等雨归期

关注

11
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。