上篇博文写到爬取教务系统获取信息时,登录时的验证码是手动输入的,所以就想试试能不能自别识别验证码并填充。查阅了很多信息,选取了Tesseract。
What is Tesseract ?
Tesseract是能够运行在多种操作系统上的开源ORC(Optical Character Recognition , 光学字符识别)引擎,目前由Google维护,是最精确的开源ORC引擎之一。与Microsoft Office Document Imaging(MODI)相比,我们可以不断地训练,使图像转换文本的能力不断增强;如果团队深度需要,还能以它为模板,开发出符合自身需求的OCR引擎。
How to use Tesseract
1. 安装
ubuntu 下可以直接进行安装
sudo apt-get install tesseract-ocr
安装图像解析的包
sudo apt-get install libpng12-dev
sudo apt-get install libjpeg62-dev
sudo apt-get install libtiff4-dev
查看是否安装成功
limeng@KID:~$ tesseract --version
tesseract 4.0.0-beta.3-249-g607e
leptonica-1.76.0
libjpeg 6b (libjpeg-turbo 1.3.1) : libpng 1.2.54 :