CrawlSpider(规则爬虫)
一 .简介:它是Spider的派生类,Spider类的设计原则是只爬取start_url列表中的网页,而CrawlSpider类定义了一些规则(rule)来提供跟进link的方便的机制,从爬取的网页中获取link并继续爬取的工作更适合。
二.创建爬虫命令:
1.前提是已经创建好爬虫项目了,若没有创建好项目,请使用 scrapy startproject 项目名
进入项目目录
2.在项目目录下执行创建规则爬虫:scrapy genspider -t crawl 爬虫名称 爬取域名
三.在pycharm中编写规则爬虫文件
1.爬虫文件中导入的Link Extractors:
class scrapy.linkextractors.LinkExtractor