邻居小秦-CSDN博客

原创 scrapy IP代理池 scrapyd spiderkeeper docker flask uwsgi nginx

Proxy_IP(代理IP池) 一个小型的代理IP池，同时也是对自己技术的一个总结规整，下面说一下项目吧。 github地址：代理池 Flask_test: 负责前端展示； proxy_ip: 代理IP抓取服务端(scrapyd)主目录; proxy_spider: 代理IP抓取代码(scrapy); spiderkeeper: 顾名思义配合 scrapyd 使用的定时调度组件；项目的整体流程： scrapy(爬虫) + scrapyd + spiderkeeeper + docker(redis)

2020-10-19 14:32:33 245

原创当当、豆瓣、苏宁使用scrapy进行数据爬取1.0版存储到MySQL及mongodb

项目确定这是我的第一个项目，之前做过很多的小项目，这次项目目标是针对当当、苏宁易购、以及豆瓣读书三大网站进行图书数据的爬取到本地。项目实施确定好项目后，接下来要针对项目进行分析及实际的操作，由于此次的目标要针对三个网站数据的爬取，还是对图书信息的爬取，可想数据量之庞大，框架方面就使用scrapy，先搭建一个爬虫项目，等到后续优化为redis分布式，接下来分步骤进行。在项目中创建三个爬虫...

2020-04-05 16:20:34 452

原创 python——多线程系列爬取妹子图！！！

项目分析在python环境下使用多线程对妹子图网站的爬取；爬取目标爬取网站里面各个小组的图片，保存到本地；使用工具 python3.5； vscode; win10；涉及模块 requests、beautifulsoup、time、json、os、queue、threading、random 目标分析首先，对主链接进行请求，获取各小组图片的链接，主链接get请求，返回HTML字...

2020-03-23 10:29:16 269

原创 python_斗鱼自动化爬取到MySQL1.0

斗鱼爬虫项目斗鱼爬虫分析确定目标使用工具涉及到的模块：目标分析代码部分项目结果项目注意点项目总结斗鱼爬虫分析使用python对斗鱼平台进行自动化爬取。确定目标爬取斗鱼直播分类里面每个房间的信息：房间名字；房间地址；房间热度；房间类型；使用工具 python3.5； vscode； Win10； MySQL5.7；涉及到的模块： selenium web测试模块（第三方...

2020-03-18 16:14:19 1423

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 scrapy IP代理池 scrapyd spiderkeeper docker flask uwsgi nginx

原创 当当、豆瓣、苏宁使用scrapy进行数据爬取1.0版存储到MySQL及mongodb

原创 python——多线程系列爬取妹子图！！！

原创 python_斗鱼自动化爬取到MySQL1.0

空空如也

空空如也

原创当当、豆瓣、苏宁使用scrapy进行数据爬取1.0版存储到MySQL及mongodb