网络爬虫--22.【CrawlSpider实战】实现微信小程序社区爬虫

最新推荐文章于 2024-06-25 21:28:44 发布

阿Q咚咚咚

最新推荐文章于 2024-06-25 21:28:44 发布

阅读量598

点赞数

分类专栏：网络爬虫

本文链接：https://blog.csdn.net/fanxindong0620/article/details/106296020

版权

本文介绍了如何使用CrawlSpider进行网络爬虫实战，特别是针对微信小程序社区的爬取。CrawlSpider允许定义特定URL规则，自动抓取满足条件的链接，无需手动yield Request。文章详细讲解了CrawlSpider的目录结构、核心文件如wxapp_spider.py、items.py、pipelines.py、settings.py以及start.py的实现和作用。

摘要由CSDN通过智能技术生成

一. CrawlSpider

现实情况下，我们需要对满足某个特定条件的url进行爬取，这时候就可以通过CrawlSpider完成。

CrawlSpider继承自Spider，只不过在之前的基础上增加了新的功能，可以定义爬取的url规则，Scrapy碰到满足条件的url都进行爬取，而不用手动的yield Request。

在这里插入图片描述

二. CrawlSpider案例

1. 目录结构

在这里插入图片描述

2. wxapp_spider.py

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from wxapp.items import WxappItem


class WxappSpiderSpider(CrawlSpider):
    name = 'wxapp_spider'
    allowed_domains = ['wxapp-union.com']
    start_urls = ['http://www.wxapp-union.com/portal.php?mod=list&catid=1&page=1']

    rules = (
        Rule(LinkExtractor(allow=r'.+mod=list&catid=1&page=\d'),  follow=True),
        Rule(LinkExtractor(allow=r'.+article-.+\.html'), callback='parse_detail', follow=False)
    )

    def parse_detail(self, response):
        title = response.xpath

最低0.47元/天解锁文章

阿Q咚咚咚

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
网络爬虫--22.【CrawlSpider实战】实现微信小程序社区爬虫

文章目录一. CrawlSpider二. CrawlSpider案例1. 小标题2. 小标题3. 小标题1). 小标题2). 小标题3). 小标题一. CrawlSpider现实情况下，我们需要对满足某个特定条件的url进行爬取，这时候就可以通过CrawlSpider完成。CrawlSpider继承自Spider，只不过在之前的基础上增加了新的功能，可以定义爬取的url规则，Scrapy碰到满足条件的url都进行爬取，而不用手动的yield Request。二. CrawlSpider案例1
复制链接

扫一扫

专栏目录