普通分布式爬虫与 scrapy分布式爬虫

最新推荐文章于 2024-06-21 15:11:58 发布

dandanfengyun

最新推荐文章于 2024-06-21 15:11:58 发布

阅读量1k

点赞数 2

分类专栏：爬虫分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dandanfengyun/article/details/84878409

版权

分布式爬虫

把多个任务存储到一个服务器上，其他终端从该服务器随机获取任务。然后一起完成任务。这就是分布式爬虫

总体思路。多台电脑在同一个局域网内。其中一台作为master，其他电脑作为slaver。共同使用同一个数据存储仓库。如同一个MySQL库。和同一个任务队列。master负责将待爬的url放入任务队列中。任务队列放置一般选用redis，redis是支持远程访问的内存数据库、速度够快。salver负责将队列中url取出来，提取出要求数据，存入MySQL数据库中。

简单的分布式。
可以使用python中redis包。
rds.lpush(key,value)向redis中存放数据。
rds.lpop(key)从redis中取数据。

实验爬虫爬取古诗文网古典小说若干章节。

master向redis中存放待爬url队列。队列中url保存的是每一篇小说网址。

import redis
import urllib.request
from lxml import etree

# 连接redis使用3号数据库
rds = redis.Redis(host='10.31.153.34',port=6379,db=3)
REDIS_KEY = 'novel:gudian'

url_base = 'https://www.gushiwen.com'

def redis_lpush(url):
    respnse = urllib.request.urlopen(url)
    tree = etree.HTML(respnse.read().decode())
    content_urls_back = tree.xpath('//div[@class="dj"]/a/@href')
    for co

最低0.47元/天解锁文章

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
普通分布式爬虫与 scrapy分布式爬虫

scrapy 爬虫
复制链接

扫一扫

专栏目录

博客等级

码龄7年

100
原创

126
点赞

744
收藏

68
粉丝

关注

私信

热门文章

分类专栏

最新评论

django restframework 中 APIView中验证权限以及节流使用以及一点点原理说明
MuYeSenSen: 这还得充会员才能看？
grafana的image render设置
Slizgo: 您好，我也遇到了和您一样的问题，麻烦请问最后解决了吗
grafana的image render设置
weixin_39520004: 您好，我遇到一些问题，目前按照方法二安装了grafana-image-render插件，但是报错 error rendering PNGs in parralel for dash {Title:process\_residentDashBoard Description: VariableValues: Rows:[] Panels:[{Id:2 Type:graph Title:Panel Title GridPos:{H:14 W:21 X:0 Y:0}}]}: error getting panel {Id:2 Type:graph Title:Panel Title GridPos:{H:14 W:21 X:0 Y:0}}: Error obtaining render: 500 Internal Server Error，不知是为什么，还有您这一句，应当是在哪里执行？ kolla-ansible reconfigure -i /etc/kolla/all-in-one
CentOS7上CloudStack4.11.0部署，双网卡模拟公网私网基本网络设置
Austinu: 这个我知道，目前也是这么做的
CentOS7上CloudStack4.11.0部署，双网卡模拟公网私网基本网络设置
Austinu: 这个我知道，目前也是这么做的

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。