立即学习:https://edu.csdn.net/course/play/9882/209890?utm_source=blogtoedu
1.Spider的运行流程
在Scrap y中抓取网站的链接配置、抓取逻辑、解析逻辑里都是在SpiDER SETTIGS
Spider要做的事就是有两件:定义抓取网站的动作和分析爬取下来的网页
对应Spider类, 整个抓取循环过程如下所述:
1.以初始的URL初始化Request, 并设置回调函数。请求成功时Response生成并作
给该回调函数。
2. 在回调函数内分析返回的网页内容。返回结果两种形式, 一种为字典或Item数
一种是解析到下一个链接。
3. 如果返回的是字典或Item对象, 我们可以将结果存入文件, 也可以使用
存
4. 如果返回Request, Response会被传递给Request中定义的回调函数参数, 即再
选择器来分析生成数据Item。