Python 爬虫，scrapy，CrawlSpider，自动提取url并发送请求

最新推荐文章于 2024-04-22 15:42:39 发布

houyanhua1

最新推荐文章于 2024-04-22 15:42:39 发布

阅读量3k

点赞数 1

分类专栏： Python+ 文章标签： Python scrapy CrawlSpider 爬虫

本文链接：https://blog.csdn.net/houyanhua1/article/details/86552430

版权

CrawlSpider 爬虫可以自动匹配提取url地址并发送请求，请求前会自动将url地址补全成以http开头的完整url。

创建CrawlSpider爬虫的命令：先cd到项目目录中 ----> scrapy genspider –t crawl 爬虫名 baidu.com

项目名/spiders/爬虫名.py（CrawlSpider爬虫，自动匹配提取url地址并发送请求）：

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
import re

# 继承的是CrawlSpider
class DemoSpider(CrawlSpider):
    name = '爬虫名'
    allowed_domains = ['baidu.com']
    start_urls = ['http://www.baidu.com']

    # 定义提取url地址的规则
    rules = (
        # LinkExtractor 链接提取器，提取url地址
        # callback 提取出来的url地址的response会交给callback处理（如果不需要处理，可以不写callback）
        # follow 提取的url地址的响应是否重新经过rules来提取新url地址（默认False）
        Rule(

最低0.47元/天解锁文章

houyanhua1

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python 爬虫，scrapy，CrawlSpider，自动提取url并发送请求

CrawlSpider 爬虫可以自动匹配提取url地址并发送请求，请求前会自动将url地址补全成以http开头的完整url。创建CrawlSpider爬虫的命令：先cd到项目目录中 ----&gt; scrapy genspider –t crawl 爬虫名 baidu.com 项目名/spiders/爬虫名.py（CrawlSpider爬虫，自动匹配提取url地址并发送请求...
复制链接

扫一扫