OCR工作的总结

最新推荐文章于 2024-04-25 11:31:12 发布

confusingbird

最新推荐文章于 2024-04-25 11:31:12 发布

阅读量679

点赞数 2

分类专栏： ocr 文章标签：图像识别算法

本文链接：https://blog.csdn.net/confusingbird/article/details/111282570

版权

ocr 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

OCR工作总结

一、简介

OCR 是实时高效的定位与识别图片中的所有文字信息，返回文字框位置与文字内容。支持多场景、任意版面下整图文字的识别，以及中英文、字母、数字的识别。通俗的来说，就是将图片上的文字内容，智能识别成为可编辑的文本。

二、原理

OCR本质是图像识别。其原理也和其他的图像识别问题基本一样。包含两大关键技术：文本检测和文字识别。先将图像中的特征的提取并检测目标区域，之后对目标区域的的字符进行分割和分类。
以深度学习兴起的时间为分割点，直至近五年之前，业界最为广泛使用的仍然是传统的OCR识别技术框架，而随着深度学习的崛起，基于这一技术的OCR识别框架以另外一种新的思路迅速突破了原有的技术瓶颈（如文字定位、二值化和文字分割等），并已在工业界得到广泛应用。
首先文本定位，接着进行倾斜文本矫正，之后分割出单字后，并对单字识别，最后基于统计模型（如隐马尔科夫链，HMM）进行语义纠错。

三、难点

复杂背景、艺术字体、低分辨率、非均匀光照、图像退化、字符形变、多语言混合、文本行复杂版式、检测框字符残缺，等等。

四、算法方案

开源最广：ctpn+crnn
代码链接：https://github.com/xiaofengShi/CHINESE-OCR
有大佬的测试结果：https://www.cnblogs.com/skyfsm/p/10345305.html

之前看到腾讯云里有一个ocr优化方向的文章，最近又找不到。

训练数据生成代码的链接：https://github.com/Sanster/text_renderer
OCR工作难点可参考：https://cloud.tencent.com/developer/article/1080576?from=information.detail.%E8%85%BE%E8%AE%AF%E4%BA%91%E7%9A%84%E8%BA%AB%E4%BB%BD%E8%AF%81ocr%E8%AF%86%E5%88%AB

confusingbird

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
OCR工作的总结

OCR工作总结一、简介 OCR 是实时高效的定位与识别图片中的所有文字信息，返回文字框位置与文字内容。支持多场景、任意版面下整图文字的识别，以及中英文、字母、数字的识别。通俗的来说，就是将图片上的文字内容，智能识别成为可编辑的文本。二、原理 OCR本质是图像识别。其原理也和其他的图像识别问题基本一样。包含两大关键技术：文本检测和文字识别。先将图像中的特征的提取并检测目标区域，之后对目标区域的的字符进行分割和分类。以深度学习兴起的时间为分割点，直至近五年之前，业界最为广泛使用的仍然是传统的
复制链接

扫一扫

专栏目录