scrapy-redis分布式爬虫

最新推荐文章于 2022-04-07 19:21:18 发布

活跃之鱼

最新推荐文章于 2022-04-07 19:21:18 发布

阅读量232

点赞数

文章标签： redis 分布式爬虫

本文链接：https://blog.csdn.net/qq_23246143/article/details/120919396

版权

本文介绍了如何在Python环境中安装Python和PyCharm，并结合Scrapy和Scrapy Redis构建网络爬虫项目。通过配置Scrapy设置文件，实现了URL调度、重复请求过滤以及数据存储到MySQL和Redis。在Spider中，利用RedisSpider基类来获取爬取起点，并定义了解析函数。整个流程详细阐述了从安装到实际应用的步骤。

摘要由CSDN通过智能技术生成

准备

python与pycharm安装

借用python项目

scrapyd与gerapy试用项目

在pycharm的控制台安装scrapy_redis包

>pip install scrapy_redis

redis

redis安装

mysql

mysql安装

开启服务

开启redis、mysql服务，也可以开启scrapyd与gerapy服务。安装过程中都有描述。

scrapy_redis包

下载后在…\anaconda3\Lib\site-packages\scrapy_redis文件夹下，有scheduler.py和dupefilter.py、pipelines.py文件，分别用于url和去重、写入redis。

修改项目

更改项目setting文件加入url和去重、写入redis、mysql、redis-url。
在这里插入图片描述

SCHEDULER='scrapy_redis.scheduler.Scheduler'
DUPERFILTER_CLASS='scrapy_redis.dupefilter.RFPDupeFilter'
ITEM_PIPELINES = {
    'hello.pipelines.HelloPipeline': 300,
    'scrapy_redis.pipelines.RedisPipeline':20,
}
MYSQL_HOST='192.168.10.232'
MYSQL_USER='root'
MYSQL_PASSWORD='root'
MYSQL_PORT='3306'
MYSQL_DBNAME='hello'
MYSQL_CHARSET='utf8'
REDIS_URL='redis://root:@192.168.10.232:6379'

更改Spider文件下的dingdian.py
在这里插入图片描述

import scrapy
from scrapy_redis.spiders import RedisSpider
class DingdianSpider(scrapy.Spider,RedisSpider):
	name = 'dingdian'
    allowed_domains = ['wwwwww']
    start_urls = ['http://www.ddxsku.com/files/article/html/13/13332/index.html']
    redis_key='dingdian:start_urls'
    def parse(self, response):
    	pass

活跃之鱼

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy-redis分布式爬虫

准备python与pycharm安装python与pycharm安装借用python项目scrapyd与gerapy试用项目在pycharm的控制台安装scrapy_redis包>pip install scrapy_redisredisredis安装mysqlmysql安装开启服务开启redis、mysql服务，也可以开启scrapyd与gerapy服务。安装过程中都有描述。scrapy_redis包下载后在…\anaconda3\Lib\site-packages\s
复制链接

扫一扫