爬虫
ljhyigehaoren
这个作者很懒,什么都没留下…
展开
-
爬虫之URL去重
URL去重我们在协爬虫时为什么需要进行URL去重?在爬虫启动工作的过程中,我们不希望同一个url地址被多次请求,因为重复请求不仅会浪费CPU,还会降低爬虫的效率,加大对方服务器的压力。而想要控制这种重复请求的问题,就要考虑请求所依据的url,只要能够控制待下载的URL不重复,基本可以解决同一个网页重复请求的问题。对于已经抓取过的url,进行持久化,并且在启动的时候加载进入去重队列,是一个比...原创 2019-04-07 10:04:08 · 5134 阅读 · 0 评论 -
scrapy中关于Splash的使用
为什么要学习Splash?我们经常使用scrapy框架编写爬虫代码,站在巨人的肩膀上感觉很好,但是一旦遇到网站用JavaScript动态渲染,scrapy就显得有些力不从心了,我们了解的selenium可以完成动态加载,返回浏览器渲染后的页面,今天我们不讲selenium,Scrapy-Splash(是一个Scrapy中支持JavaScript渲染的工具)同样可以完成这件事,下面我们来说说Spl...原创 2019-04-07 22:21:58 · 2398 阅读 · 0 评论 -
3分钟搞定 Flower-Celery 监控工具(监控爬虫运行状态)
什么是Flower?Flower是基于web的监控和管理Celery的工具.官方文档地址:https://flower-docs-cn.readthedocs.io/zh/latest/特性用Celery事件实时监控任务进程和历史能够显示任务的详细信息(arguments, start time, runtime等)图形化和统计远程控制查看worker状态和统计...原创 2019-04-11 22:55:53 · 4043 阅读 · 1 评论 -
celery的介绍和在爬虫的中使用
一、Celery介绍和基本使用Celery官方文档:http://docs.celeryproject.org/en/latest/index.htmlCelery是什么?Celery 是一个 基于python开发的分布式异步消息任务队列,通过它可以轻松的实现任务的异步处理, 如果你的业务场景中需要用到异步任务,就可以考虑使用celery, 举几个实例场景中可用的例子:异步任务:将耗时的...原创 2019-04-02 22:43:15 · 1409 阅读 · 0 评论 -
Gerapy 分布式爬虫管理部署使用
Gerapy 使用详解介绍:Gerapy 是一款分布式爬虫管理框架,支持 Python 3,基于 Scrapy、Scrapyd、Scrapyd-Client、Scrapy-Redis、Scrapyd-API、Scrapy-Splash、Jinjia2、Django、Vue.js 开发,Gerapy 可以帮助我们:更方便地控制爬虫运行更直观地查看爬虫状态更实时地查看爬取结果...原创 2019-04-08 21:24:14 · 582 阅读 · 0 评论 -
京东商品评论爬取实战小demo
先说说为什么写这个小demo吧,说起来还真的算不上“项目”,之前有一个朋友面试,别人出了这么一道机试题,需求大概是这样紫滴:1.给定任意京东商品链接,将该商品的商品信息和商品评论信息拿下2.要求使用多任务来提高爬虫获取数据的效率3.代码简洁,规范,添加必要注释4.可以使用函数式编程,或者面向对象编程看到上面四个简单的需求,层次高的童鞋可能就看不下去了,因为太简单了,这里本人的目的是给...原创 2019-04-17 21:08:02 · 1052 阅读 · 0 评论