前言
最近公司业务中接到一个需求,需要持续 不断的爬取某个网站,且网站必须要登录(我们这边有账号密码),实现这个需求的难题在于登录此网站的时候必须输入验证码,验证码不可能用到人工输入,目前市场上验证码识别技术在阿里和腾讯比较成熟的,不过都是收费的,下面我介绍一款,非常简单并且非常强大的第三方插件库。
一、GraphicCR - 基于 Java 的简单图形验证码识别
参考几个网站的验证码: 青岛农业大学教学一体化服务平台-- http://jwglxt.qau.edu.cn/ 蚌埠医学院教务网络管理系统 -- http://211.70.128.23/JWWEB/home.aspx类似与以上两种平台的二维码,亲测,成功率在95%以上 只有在 3 和 8、o和0
的时候可能会出现问题,其余基本不会有问题。
下载链接
链接:https://pan.baidu.com/s/1jhIo9C4a1uTNBkRXtNV5zw
提取码:tiy0
下载成功之后打开out文件夹 复制graphiccr-1.0.7.jar到项目中
eclipse直接复制进去 然后 build path
idea 新建一个文件夹 专门放jar包的 然后添加到项目中
(只复制到项目目录下不行,必须添加到jar包目录下,详情百度)