Android ocr识别文字介绍

最新推荐文章于 2024-08-13 08:24:07 发布

月亮弯弯2013

最新推荐文章于 2024-08-13 08:24:07 发布

阅读量8.1k

点赞数 4

分类专栏： android进阶

本文链接：https://blog.csdn.net/love_xsq/article/details/44616925

版权

本文介绍了如何在Android上使用tesseract-ocr进行文字识别，包括如何解决编译问题、利用tess-two库，以及如何训练自定义的OCR识别库以提高身份证号码识别的准确率。详细步骤涵盖从下载库到训练过程，包括使用jTessBoxEditor进行box文件矫正和创建font_properties文件。

摘要由CSDN通过智能技术生成

最近在做身份证号码识别，在网上搜索的一番后发现目前开源的OCR中tesseract-ocr算是比较强大的了，它由HP于1985年到1995年间开发，后来由google直接负责，经过谷歌进一步开发后，目前的tesseract-ocr有了显著的改进。

tesseract-ocr和Leptonica图像库一起工作，它可以读取多种图像格式，并将其转换成超过60种语言的文本。可以工作在Linux，Windows，Mac OSX等系统上，并且可以在android和iphone平台上编译。

目前android版本在这个地址：https://code.google.com/p/tesseract-android-tools/，这个版本需要自己下载很多关联的库文件，我在编译的时候出了很多问题，后来没办法又在网上找到了这个项目：https://github.com/rmtheis/tess-two，说是tesseract-ocr-tool的一个分支，这个版本的好处是很多相关的库都已经为我们配置好了，我们只要git clone下来编译下就行了，github上相关介绍说的很详细，编译的过程这里就不做介绍了，我在编译的时候出现了permission权限的问题，文件的权限用chmod 777 ./ 这个命令修改下就Ok了。最后编译好的在libs下的so文件就是我们开发所需要的库文件。

android中tesseract-ocr的使用在tess-two这个项目中有例子程序，不过写的都比较简单，这里有个开源的识别项目，做的很好：https://github.com/rmtheis/android-ocr，我借鉴的就是这个项目来开发的，但是用过后发现，对于身份证识别的效果并不好，识别率不是很高，而且经常识别不出来。OCR用到的识别库：