python综合使用requests模块,redis,mysql分布式爬取csdn博客,并存储到mysql数据库中
一. 准备工作:创建一个模块master包含spider文件,再创建一个模块slaver包含spider.py文件和models.py文件
master下的spider.py文件用于发布任务,即将需要爬取的url地址存放在redis中,slaver中的spider文件用于分布式提取redis中的url并且解析内容存放在mysql数据库中
master\spider.py
slaver\spid...
原创
2018-10-27 14:44:41 ·
470 阅读 ·
0 评论