这个爬虫闯关挺适合入门的,主要是爬取静态网页以及模拟登陆。
一共有5关,重点讲第4关和第5关。
1-3关
第1关是每个页面都带有一串数字,然后要把这串数字替换到url上再访问,从而进入下一个地址获取下一串数字,直至过关。对于了解html的人来说不难,使用beautifulsoup+lxml解析获取到的html即可。
第2关是猜密码,密码是0-30内的一个数字,这里就用到post方法了
先手动在网页上提交一次,然后打开开发者工具查看提交的表单都有什么内容(我使用的是chrome),然后在post方法中加入这些内容即可。- 第3关同样是猜密码,但是多了一个cookies验证方式,同样使用开发者工具查看,会发现多了一个
csrfmiddlewaretoken
,这个在请求网页的时候获得,用以检验是否是接收到网页的本机在操作,因此只需要在post的data中加入这个cookie即可