普通分布式爬虫与 scrapy分布式 爬虫

分布式爬虫

把多个任务存储到一个服务器上,其他终端从该服务器随机获取任务。然后一起完成任务。这就是分布式爬虫

总体思路。多台电脑在同一个局域网内。其中一台作为master,其他电脑作为slaver。共同使用同一个数据存储仓库。如同一个MySQL库。和同一个任务队列。master负责将待爬的url放入任务队列中。任务队列放置一般选用redis,redis是支持远程访问的内存数据库、速度够快。salver负责将队列中url取出来,提取出要求数据,存入MySQL数据库中。

简单的分布式。
可以使用python中redis包。
rds.lpush(key,value)向redis中存放数据。
rds.lpop(key)从redis中取数据。

实验爬虫爬取古诗文网古典小说若干章节。

master向redis中存放待爬url队列。队列中url保存的是每一篇小说网址。

import redis
import urllib.request
from lxml import etree

# 连接redis使用3号数据库
rds = redis.Redis(host='10.31.153.34',port=6379,db=3)
REDIS_KEY = 'novel:gudian'

url_base = 'https://www.gushiwen.com'

def redis_lpush(url):
    respnse = urllib.request.urlopen(url)
    tree = etree.HTML(respnse.read().decode())
    content_urls_back = tree.xpath('//div[@class="dj"]/a/@href')
    for co
  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值