c#后端想要集成OCR文字识别技术,其实很简单。
首先要在集成的项目中添加两个依赖
一个是上面右键添加引用,搜索drawing并添加。
一个是通过nuget获取的,搜索Tesseract并下载安装
接口上传图片很简单,我们这边主要做一下识别的功能。所以直接截一张文字的图片放在项目路径下面
我们主要来解析第一张图片。解析图片必不可少的就是数据包了,这边我们在网上找几个别人训练好的数据包直接使用就可以了。识别中文使用chi_sim包就行,如果大家有语言包的使用需要可以私信我。
准备好后代码就比较简单了,初始化一下TesseractEngine,然后通过Process方法加载图片,解析后返回字符串即可。
这个东西不是特别灵敏,识别多行或者分辨率不高的字就很吃力,甚至直接识别出乱码,但免费的总比收费的强不是。
正式环境上线后遇到一个问题,接口报错了
System.Reflection.TargetInvocationException:“调用的目标发生了异常。”
DllNotFoundException: Failed to find library leptonica-1.82.0.dll for platform x86
解决办法很简单,windows系统安装一个插件就可以了,报x86找不到就装86,报x64找不到就装64的 插件地址x86 插件地址x64