创建项目:scrapy startproject 项目名
创建爬虫:scrapy genspider spiderName www.xxx.com(爬虫的名字,起始的url)
执行爬虫:scrapy crawl spiderName
Scapy 之 Spider
Spider是一个基类,开发需要继承这个Spider基类,包含多个方法
start_reqeusts():设置起始url后由该默认方法构建Request对象,如果我们写自己的逻辑,比如模拟登陆等,需要重写父类方法.
def parse(self, response):默认解析方法,
工作:
1.提取数据,将数据封装后(Item或字典)提交给Scrapy引擎;
2.提取链接,并用链接构造新的Request对象提交给Scrapy引擎;其中,提取链接的方法包括使用选择器或使用LinkExtractor
Spider 之 yield:
类似于return,但又不同
结构:
allowed_domains &