scrapy
文章平均质量分 94
名明鸣冥
这个作者很懒,什么都没留下…
展开
-
用scrapyd部署scrapy项目
介绍与安装 scrapydscrapyd是一个服务器,类似于nginx,tomcat,会暴露web接口 , 我们的scrapy爬虫类似作为一个webapp部署进来,然后通过webapi进行开启关闭等操作安装:pip install scrapyd我们部署的前提是自己已经有一个scrapy工程了,具体可参考:https://blog.csdn.net/mingover/articl...原创 2018-07-10 22:46:51 · 2613 阅读 · 0 评论 -
scrapy_demo获取网站信息
前段时间项目使用了scrapy,这里做个简单的demo,使用scrapy抓取下安居客的内容, 关于怎么搭建scrapy的工程,请查看https://blog.csdn.net/mingover/article/details/80717974全部源代码:https://github.com/huawumingguo/scrapy_demo分析安居客页面是否要登陆?我们...原创 2018-07-07 14:33:43 · 668 阅读 · 0 评论 -
scrapy管理多个spider,共用settings问题
背景说明这段时间需要用到scrapy来获取一些数据,其中涉及到多个任务,之间对scrapy不太熟悉,于是一个任务一个scrapy,感觉对复用方面很不友好,于是我们在想,怎么在一个scrapy project中搞多个spider, 这样对各方面的复用会好很多.系统使用了redis,和kafka,代理逻辑, 还有散落在很多代码里的log 一般这种抽象,我会采用策略模式来做,同时兼顾单例,根据fl...原创 2018-07-20 11:29:05 · 6420 阅读 · 1 评论 -
scrapy集成scrapy-redis
背景情况爬虫由于需要网络请求,一般生产数据都比较慢,如果增加部分浏览器的处理,会更慢, 所以需要增加分布式的处理方案, 比较常见的,是把队列扔到redis中,比较常用的是 scrapy-redis 说明,这里不讲怎么去搭建一个spider,初始内容,请查看 https://blog.csdn.net/mingover/article/details/80717974怎么...原创 2018-08-08 19:22:44 · 838 阅读 · 0 评论 -
scrapy获取数据的一些问题与解决
前言我们采用scrapy 爬取了一些游戏数据,这里对遇到的一些技术问题 的解决情况项目情况爬虫的逻辑是比较简单的,有一个进程从 任务队列中 拿到 相应的任务(一般是url),去请求,拿到html/json/…后 进行解析,解析完后自己选择做什么,比如:1,把解析后的数据存起来,2,解析后发现有想用的url,重新把这些个url当作一个任务扔到 任务队列中.我们的爬虫任务有挺多的,如 游戏的i...原创 2019-09-06 16:32:34 · 1310 阅读 · 0 评论