自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 利用Python爬虫续借图书(三):自动识别验证码

手工识别还是有点麻烦,尝试一下Tesseract-OSR,windows直接下载,其他版本在官网wiki上有。安装路径如果直接用默认的比较省事,我安到了D盘。win+X打开命令行,输入tesseract,如果提示”不是内部或外部命令,也不是可运行的程序或批处理文件“,需要在环境变量里为Path添加tesseract的安装路径,具体如图:设置成功后,我们可以试用一下,在网上随便拉一个验证码也可以自己...

2018-06-16 19:00:41 605

原创 利用Python爬虫续借图书(二):续借图书

在获取完借书列表后,我们要尝试着用python续借图书了。首先,肯定是利用浏览器自带的工具查看续借的整个流程,调出开发者工具,转到network选项卡,点击续借按钮,发现出来了一个验证码对话框,随便输入,点确定。发现浏览器抓取的要素过多,如果一个个查看Header,有点费时间,我们可以先关闭开发者工具,等到弹出验证码之后再调出,我们可以发现这个时候只有一个ajax_renew.php的文件在活动,...

2018-06-14 21:49:32 374

原创 利用Python爬虫续借图书(一):获取借书列表

刚学python不久,看了些爬虫教程,决定拿校图书馆试试手首先考虑登陆的问题,学校所有网站目前采取统一身份认证,任何需要登陆的校内站点都可以跳转到https://passport.ustc.edu.cn/login?service=xxxx获取身份认证,猜测是拿一个cookie,不过我们不用管爬虫想要登陆,必须知道要提交数据的格式。打开登陆界面,调出F12工具,转到Network选项卡,随便输入用...

2018-06-14 20:31:06 688

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除