问题:第一次使用tesseract ocr ,安装成功后识别图片,文本里面有特殊符号
安装参考了多个博客,主要步骤如下,参考的主要网址为:https://www.cnblogs.com/weiwei2016/p/10457863.html
步骤:
1、工具准备:
(1)tesseract下载地址:https://digi.bib.uni-mannheim.de/tesseract/
我下载的是4.0的版本:tesseract-ocr-w32-setup-v4.0.0.20181030.exe
下载后点击这个文件直接安装
(2)添加中文的识别库:https://github.com/tesseract-ocr/tessdata/blob/master/chi_sim.traineddata
这个网址中下载chi_sim.traineddata,下载后放到Tesseract-OCR\tessdata文件夹内。
4.0之前的版本是自带这个文件的,可以忽略这一步,但是中文识别不出,建议还是下载4.0之后的版本
2、配置环境:
设置环境变量:
安装完成后在Windows下把tesseract.exe所在的路径添加到PATH环境变量中。
在使用tesser