python网络爬虫 CrawlSpider使用详解

最新推荐文章于 2024-08-07 13:40:18 发布

程序员浩然

最新推荐文章于 2024-08-07 13:40:18 发布

阅读量4.9k

点赞数 4

分类专栏： python爬虫教程文章标签： python 大数据

本文链接：https://blog.csdn.net/haoxun09/article/details/104642523

版权

本文详细讲解了Python网络爬虫中CrawlSpider的使用，它用于全站数据爬取，是Spider的子类。通过scrapy genspider创建CrawlSpider爬虫，结合LinkExtractor和Rule进行链接提取及请求解析。尽管Scrapy原生不支持分布式爬取，但文章也简要提及了分布式爬取的概念和应用场景。

摘要由CSDN通过智能技术生成

这篇文章主要介绍了python网络爬虫 CrawlSpider使用详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
CrawlSpider
作用：用于进行全站数据爬取
CrawlSpider就是Spider的一个子类
如何新建一个基于CrawlSpider的爬虫文件
scrapy genspider -t crawl xxx www.xxx.com
例：choutiPro
LinkExtractor连接提取器：根据指定规则（正则）进行连接的提取
Rule规则解析器：将连接提取器提取到的连接进行请求发送，然后对获取的页面进行指定规则【callback】的解析
一个链接提取器对应唯一一个规则解析器
例：crawlspider深度（全栈）爬取【sunlinecrawl例】

分布式（通常用不到，爬取数据量级巨大、时间少时用分布式）
概念：可将一组程序执行在多态机器上（分布式机群），使其进行数据的分布爬取
原生的scrapy框架是否可以实现分布式？
不能

抽屉

# spider文件
 
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
 
class ChoutiSpider(CrawlSpider):
  name = 'chouti'
  # allowed_domains = ['www.xxx.com']
  start_urls = ['https://dig.chouti.com/1']