clague-CSDN博客

原创利用Python爬虫续借图书（三）：自动识别验证码

手工识别还是有点麻烦，尝试一下Tesseract-OSR，windows直接下载，其他版本在官网wiki上有。安装路径如果直接用默认的比较省事，我安到了D盘。win+X打开命令行，输入tesseract，如果提示”不是内部或外部命令，也不是可运行的程序或批处理文件“，需要在环境变量里为Path添加tesseract的安装路径，具体如图：设置成功后，我们可以试用一下，在网上随便拉一个验证码也可以自己...

2018-06-16 19:00:41 605

原创利用Python爬虫续借图书（二）：续借图书

在获取完借书列表后，我们要尝试着用python续借图书了。首先，肯定是利用浏览器自带的工具查看续借的整个流程，调出开发者工具，转到network选项卡，点击续借按钮，发现出来了一个验证码对话框，随便输入，点确定。发现浏览器抓取的要素过多，如果一个个查看Header，有点费时间，我们可以先关闭开发者工具，等到弹出验证码之后再调出，我们可以发现这个时候只有一个ajax_renew.php的文件在活动，...

2018-06-14 21:49:32 374

原创利用Python爬虫续借图书（一）：获取借书列表

刚学python不久，看了些爬虫教程，决定拿校图书馆试试手首先考虑登陆的问题，学校所有网站目前采取统一身份认证，任何需要登陆的校内站点都可以跳转到https://passport.ustc.edu.cn/login?service=xxxx获取身份认证，猜测是拿一个cookie，不过我们不用管爬虫想要登陆，必须知道要提交数据的格式。打开登陆界面，调出F12工具，转到Network选项卡，随便输入用...

2018-06-14 20:31:06 688

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 利用Python爬虫续借图书（三）：自动识别验证码

原创 利用Python爬虫续借图书（二）：续借图书

原创 利用Python爬虫续借图书（一）：获取借书列表

空空如也

空空如也

原创利用Python爬虫续借图书（三）：自动识别验证码

原创利用Python爬虫续借图书（二）：续借图书

原创利用Python爬虫续借图书（一）：获取借书列表