Scrapy 伪分布式爬虫

最新推荐文章于 2023-04-27 22:47:54 发布

BradyCC

最新推荐文章于 2023-04-27 22:47:54 发布

阅读量291

点赞数 1

分类专栏： Scrapy

本文链接：https://blog.csdn.net/bradycc/article/details/90759837

版权

Scrapy 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Scrapy 伪分布式爬虫

应用 Scrapy框架 ，使用redis实现伪分布式爬虫。

# settings 配置redis

SCHEDULER = "scrapy_redis.scheduler.Scheduler"
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER_PERSIST = True

# spider 引入并配置redis

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from proxy.items import ProxyItem
from scrapy_redis.spiders import RedisCrawlSpider

class XiciSpider(RedisCrawlSpider):
    name = 'xici'
    redis_key = 'myspider:start_urls'

    def parse_start_url(self, response):
        print(response)

    rules = (
        Rule(LinkExtractor(allow=r'/nt/'), callback='parse_item', follow=True),
    )

    def parse_item(self, response):
        print(response.url)
        item = ProxyItem()
        list = response.xpath('//table[@id="ip_list"]/tr')
        for listItem in list:
            item['country'] = listItem.xpath('.//td[1]/img/@alt').get()
            item['ipAddress'] = listItem.xpath('.//td[2]/text()').get()
            item['port'] = listItem.xpath('.//td[3]/text()').get()
            item['serverAddress'] = listItem.xpath('.//td[4]/a/text()').get()
            item['type'] = str(listItem.xpath('.//td[6]/text()').get()).lower()
            item['timeToLive'] = listItem.xpath('.//td[9]/text()').get()
            item['proofTime'] = listItem.xpath('.//td[10]/text()').get()
            yield item

启动 redis服务 - redis-server。

在这里插入图片描述

启动爬虫，监听

在这里插入图片描述

启动redis客户端 - redis-cli，执行伪分布式爬虫

在这里插入图片描述

BradyCC

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Scrapy 伪分布式爬虫

Scrapy 伪分布式爬虫应用 Scrapy框架，使用redis实现伪分布式爬虫。# settings 配置redisSCHEDULER = "scrapy_redis.scheduler.Scheduler"DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"SCHEDULER_PERSIST = True# ...
复制链接

扫一扫