tesseract可以说和是作爬虫必须的工具之一,为win上安装还是比较方便,这里主要记录一下ubuntu上的安装过程,这中间遇到了很多坑,最后发现一个超级方便快捷的安装方式
首先就apt安装就好了
sudo apt-get update
sudo apt install tesseract-ocr
这里默认安装的是4.0版本,如果要安装5.0,就用另外一套命令
要安装5.0,要先加PPA
sudo add-apt-repository ppa:alex-p/tesseract-ocr-devel
sudo apt-get update
sudo apt install tesseract-ocr-chi-sim
测试 tesseract -v
以上的步骤是安装tesseroct,下面是自己取巧发现的安装语言包的方法,省时不费力
sudo apt install tesseract-ocr-*
这里用通配符*来安装官网发行的所有语言包
最后用tesseract命令后可以验证安装
用
- List item
tesseract --list-langs
查看已安装的语言包
一步搞定
完美
参考博客园
https://www.cnblogs.com/jackduan/p/11890691.html