- 博客(3)
- 收藏
- 关注
原创 利用Python爬虫续借图书(三):自动识别验证码
手工识别还是有点麻烦,尝试一下Tesseract-OSR,windows直接下载,其他版本在官网wiki上有。安装路径如果直接用默认的比较省事,我安到了D盘。win+X打开命令行,输入tesseract,如果提示”不是内部或外部命令,也不是可运行的程序或批处理文件“,需要在环境变量里为Path添加tesseract的安装路径,具体如图:设置成功后,我们可以试用一下,在网上随便拉一个验证码也可以自己...
2018-06-16 19:00:41 605
原创 利用Python爬虫续借图书(二):续借图书
在获取完借书列表后,我们要尝试着用python续借图书了。首先,肯定是利用浏览器自带的工具查看续借的整个流程,调出开发者工具,转到network选项卡,点击续借按钮,发现出来了一个验证码对话框,随便输入,点确定。发现浏览器抓取的要素过多,如果一个个查看Header,有点费时间,我们可以先关闭开发者工具,等到弹出验证码之后再调出,我们可以发现这个时候只有一个ajax_renew.php的文件在活动,...
2018-06-14 21:49:32 374
原创 利用Python爬虫续借图书(一):获取借书列表
刚学python不久,看了些爬虫教程,决定拿校图书馆试试手首先考虑登陆的问题,学校所有网站目前采取统一身份认证,任何需要登陆的校内站点都可以跳转到https://passport.ustc.edu.cn/login?service=xxxx获取身份认证,猜测是拿一个cookie,不过我们不用管爬虫想要登陆,必须知道要提交数据的格式。打开登陆界面,调出F12工具,转到Network选项卡,随便输入用...
2018-06-14 20:31:06 688
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人