- 博客(4)
- 收藏
- 关注
原创 scrapy IP代理池 scrapyd spiderkeeper docker flask uwsgi nginx
Proxy_IP(代理IP池) 一个小型的代理IP池,同时也是对自己技术的一个总结规整,下面说一下项目吧。 github地址:代理池 Flask_test: 负责前端展示; proxy_ip: 代理IP抓取服务端(scrapyd)主目录; proxy_spider: 代理IP抓取代码(scrapy); spiderkeeper: 顾名思义配合 scrapyd 使用的定时调度组件; 项目的整体流程: scrapy(爬虫) + scrapyd + spiderkeeeper + docker(redis)
2020-10-19 14:32:33
245
原创 当当、豆瓣、苏宁使用scrapy进行数据爬取1.0版存储到MySQL及mongodb
项目确定 这是我的第一个项目,之前做过很多的小项目,这次项目目标是针对当当、苏宁易购、以及豆瓣读书三大网站进行图书数据的爬取到本地。 项目实施 确定好项目后,接下来要针对项目进行分析及实际的操作,由于此次的目标要针对三个网站数据的爬取,还是对图书信息的爬取,可想数据量之庞大,框架方面就使用scrapy,先搭建一个爬虫项目,等到后续优化为redis分布式,接下来分步骤进行。 在项目中创建三个爬虫...
2020-04-05 16:20:34
452
原创 python——多线程系列爬取妹子图!!!
项目分析 在python环境下使用多线程对妹子图网站的爬取; 爬取目标 爬取网站里面各个小组的图片,保存到本地; 使用工具 python3.5; vscode; win10; 涉及模块 requests、beautifulsoup、time、json、os、queue、threading、random 目标分析 首先,对主链接进行请求,获取各小组图片的链接,主链接get请求,返回HTML字...
2020-03-23 10:29:16
269
原创 python_斗鱼自动化爬取到MySQL1.0
斗鱼爬虫项目斗鱼爬虫分析确定目标使用工具涉及到的模块:目标分析代码部分项目结果项目注意点项目总结 斗鱼爬虫分析 使用python对斗鱼平台进行自动化爬取。 确定目标 爬取斗鱼直播分类里面每个房间的信息: 房间名字; 房间地址; 房间热度; 房间类型; 使用工具 python3.5; vscode; Win10; MySQL5.7; 涉及到的模块: selenium web测试模块(第三方...
2020-03-18 16:14:19
1423
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人