最近学习了一下登录型的爬虫。
这种爬虫是通过伪造浏览器向服务器发送post命令来完成登录操作的。
伪造浏览器发送post请求,就要构造 hearders以及postdata。前者是网站报头信息,后者是登录需要的账号,密码等等。
如下:
headers = {
'Connection': 'keep-alive',
'Accept': '*/*',
'Accept-Language':'zh-CN,zh;q=0.8',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.63 Safari/537.36',
'Host': '***',
'DNT':'1'
}
postdata={
'name': '***'
'passworld':'***'
/其他信息/
}
不过具体的网站需要的信息不同,需要视情况而定。 这些信息可一在burpsuite或者fiddler抓包获取。
之后就是通过这两个信息去抓取页面了。