分布式爬虫
把多个任务存储到一个服务器上,其他终端从该服务器随机获取任务。然后一起完成任务。这就是分布式爬虫
总体思路。多台电脑在同一个局域网内。其中一台作为master,其他电脑作为slaver。共同使用同一个数据存储仓库。如同一个MySQL库。和同一个任务队列。master负责将待爬的url放入任务队列中。任务队列放置一般选用redis,redis是支持远程访问的内存数据库、速度够快。salver负责将队列中url取出来,提取出要求数据,存入MySQL数据库中。
简单的分布式。
可以使用python中redis包。
rds.lpush(key,value)向redis中存放数据。
rds.lpop(key)从redis中取数据。
实验爬虫爬取古诗文网古典小说若干章节。
master向redis中存放待爬url队列。队列中url保存的是每一篇小说网址。
import redis
import urllib.request
from lxml import etree
# 连接redis使用3号数据库
rds = redis.Redis(host='10.31.153.34',port=6379,db=3)
REDIS_KEY = 'novel:gudian'
url_base = 'https://www.gushiwen.com'
def redis_lpush(url):
respnse = urllib.request.urlopen(url)
tree = etree.HTML(respnse.read().decode())
content_urls_back = tree.xpath('//div[@class="dj"]/a/@href')
for co