第十四章 图形验证码识别工具
图形识别
作为反爬的机制,图形验证码非常常见。
1.图形验证码识别工具tesseract的使用
tesseract是一种能够将图片翻译成文字的技术。是目前公认的最优秀,最准确的开源OCR库。需要安装tessrract工具,在安装前,先安装调用的工具包。pip install pytesseract 然后安装下载好的tesseract。安装完成后,要想在命令中使用,应该设置环境变量,把tesseract的文件路径添加到path环境变量里面。
除了这一个,还需要把训练数据的路径添加到环境变量中。这个只需要添加到用户变量中,不必添加到path变量中。
···········································································································
在我的“E:\BaiduNetdiskDownload\爬虫课Jerry版\20210111-第十四讲-线程上\上课代码\上课代码\demo.jpg”这个文件夹路径里有一个示例图片demo.jpg。打开是一个验证码图片,是这样子的: