在之前的网站爬取过程中,是GET类型的请求,即无需改变的,直接从网页上提取即可。
而POST类型的请求,需要传递给服务器,然后再得到一些数据,比如需要登录的一些网站。
使用chrome浏览器,找到更多工具,之后点Network,然后刷新一些界面,就会出现一堆东西。
我这里以qq邮箱为例,在network里找到一个xlog的,这个是登录,然后点一下,找到header,就可以看到里面的一些信息了。
这种有POST的类型,我们需要导入如下模块
from scrapy.http import FromRequest
将之前的start_url变为request方法
def start_requests(self):
return[FromRequest("这里填登录界面的网址",formdata={"user:""user","pass":"pass"})]