1,下载安装Tesseract-OCR 安装,链接地址Index of /tesseract
2,安装成功 tesseract -v
注意:安装后,要添加系统环境变量
3,cmd指定目录到 cd C:\Work\BlogsTest\TestPic,要识别图片的文件夹 识别:tesseract test.png result -l chi_sim
识别成功的效果,result.txt文件会自动生成
要注意:Tesseract-OCR的安装目录要包含识别中文的字符集chi_sim.traineddata,可以在GitHub下载GitHub - tesseract-ocr/tessdata: Trained models with support for legacy and LSTM OCR engine
4,可见第3步的识别效果不是很好,想到通过训练自定义字库,提