scrapy
无恶不作杰尼龟
python
展开
-
python 分布式爬虫实现流程和相关设置
分布式爬虫概念:搭建一个分布式的机群,让其对一组资源进行分布联合爬取。作用:大大提升爬取数据的效率如何实现分布式?安装一个scrapy-redis的组件(原生的scarapy是不可以实现分布式爬虫,必须要让scrapy结合着scrapy-redis组件一起实现分布式爬虫)scrapy-redis组件可以给原生的scrapy框架提供可以被共享的管道和调度器实现流程创建一个工程创建一个爬虫文件修改当前的爬虫文件:- 导包:from scrapy_redis.spiders impor原创 2020-12-08 12:45:02 · 215 阅读 · 0 评论 -
python scrapy结合selenium爬取JD数据
python scrapy结合selenium爬取JD数据JD的数据是js动态加载的需要selenium模拟鼠标动作向后滑动才加载完成,但是单纯的用selenium又很慢,所以用selenium和scrapy框架结合一下,会快一些。第一步:创建scrapy文件scrapy startproject JDpacd JDpascrapy genspider JD打开 JD.py分析jd页面数据这里我查找的是jd关于python爬虫的相关信息可以看到所有的信息都在ul标签下的li标签列表原创 2020-12-04 20:58:49 · 733 阅读 · 0 评论 -
python爬虫 之 scrapy框架采集2000期彩票数据
python爬虫 之 scrapy框架采集2000期彩票数据最近学习一下数据分析,需要大量的数据,不知道搞啥好就用scrapy框架爬2000期的彩票双色球,看看哪个号码出现的机率大一些。第一步:在终端切换到想要新建爬虫文件的目录下利用 cd XXXX 进行切换 输入scrapy startproject 文件名 ,并利用cd 文件名 切换到新建目录!我这里新建了一个项目叫gansha 这里成功了就可以看到提示输入cd gansha 进入到项目中输入scrapy genspider原创 2020-12-02 02:03:00 · 1013 阅读 · 1 评论