1.安装软件源
sudo add-apt-repository ppa:alex-p/tesseract-ocr (添加软件源)
可能会遇到一个问题:
Fix ‘add-apt-repository command not found’ Error on Ubuntu and Debian //想新添加一个ppa的库,但是没有这个命令存在;
执行下面的命令在重新来一遍就可以啦
执行这个命令
sudo apt-get install software-properties-common
2.更新软件
sudo apt update
3.下载tesseract 4.0
sudo apt install tesseract-ocr
4.测试安装
测试安装是否成功: tesseract --version //出现4.00或以上就可以了
5.测试
tesseract 1.jpg result -l eng // 1.jpg是要识别的图片, result是识别后的文字存放的txt, -l 是选项 用那个语言,eng是英语语言.chi_sim是中文, 需要下字体库
6.字体库下载
7.字体库放在哪
字体库要放在 tessdata文件夹里面
/usr/share/tesseract-ocr/4.00/tessdata/