爬虫
第十一天
scrapy流程的新理解
-
start_urls谁构造的请求?
def start_requests(self): for url in self.start_urls: yield Request(url, dont_filter=True)
-
当爬虫开始运行时,首先引擎会调用爬虫类的start_requests()方法将start_urls列表中的所有url构造成请求对象,放入请求队列
-
start_requests()方法yield的请求,不经过爬虫中间件,不过滤域名是否超出allowed_domains
是不是所有的请求,放入调度器之前,都会经过爬虫中间件?
- start_urls构造的请求不经过
- 下载器中间件返回的request请求不经过
scrapy之模拟登陆
-
携带Cookie
def start_requests(self): for url in self.start_urls: yield Request(url, dont_filter=True,cookies=cookie_dict