Python爬虫学习笔记二:模拟登录(以API形式调用tesseract识别简单验证码),并打包成执行文件(exe)

一、tesseract dll下载
https://github.com/charlesw/tesseract 这个网址中包含了编译好的exe及dll文件,而且x86,x64两种架构都有。
(特别说明:选择x86还是x64版本dll,只依赖于你的python架构,而不是操作系统的架构,即便是在64位操作系统,假如你的python是32位版本,这里也要选用x86版本dll)。
下载这两个DLL:libtesseract304.dll  和 liblept172.dll

二、语言包下载
网址: https://github.com/tesseract-ocr/tessdata ,下载其中需要的语言包就行了。跟dll放到同一目录 记得把语言包放在tessdata文件夹里面

语言包文件格式:eng.traineddata

以上网址打不开的请自行百度关键字:GitHub不能访问

三、vc 2015++发行包下载

注意说明里这一段话:
Since tesseract and leptonica binaries are compiled with Visual Studio 2015 you'll need to ensure you have theVisual Studio 2015 Runtimeinstalled.
意思就是,这个tesseract 的dll是使用vs 2015编译的,所以必须安装其发行包,同样分X64,X86两个版本,还是依赖于你的开发环境,不依赖于操作系统。

四、安装pyocr for python包
用pip就可以安装: pip install pyocr,也可以到官网下载源码,手动安装:https://github.com/jflesch/pyocr

最新的pyocr是0.4.1,其源码还是基于tesseract 3.0.2 ,而前文下载的tesseract 已经是3.0.4版本了,所以需要改下pyocr源码。(需要说明的是pyocr包ÿ

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值