黑板客爬虫闯关

这个爬虫闯关挺适合入门的,主要是爬取静态网页以及模拟登陆。
一共有5关,重点讲第4关和第5关。
1-3关

  • 第1关是每个页面都带有一串数字,然后要把这串数字替换到url上再访问,从而进入下一个地址获取下一串数字,直至过关。对于了解html的人来说不难,使用beautifulsoup+lxml解析获取到的html即可。

  • 第2关是猜密码,密码是0-30内的一个数字,这里就用到post方法了
    先手动在网页上提交一次,然后打开开发者工具查看提交的表单都有什么内容(我使用的是chrome),然后在post方法中加入这些内容即可。

  • 第3关同样是猜密码,但是多了一个cookies验证方式,同样使用开发者工具查看,会发现多了一个csrfmiddlewaretoken,这个在请求网页的时候获得,用以检验是否是接收到网页的本机在操作,因此只需要在post的data中加入这个cookie即可

第4关

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值