anni0103-CSDN博客

转载 laravel 上线部署最佳实践

nginx 配置 listen 80 default_server; server_name xxxx; index index.php index.html; 优先 index.php root /home/wwwroot/xxx/public/; add_header X-Frame-Options "SAMEORIGIN"...

2018-02-13 16:23:00 283

转载 ken桑带你读源码之scrapy scrapy\core\scheduler.py

从英文来看是调度程序我们看看是怎么调度　　首先爬虫队列有两个一个是保存在内存中没有历史记录重新开始 42行self.mqs = self.pqclass(self._newmq) 另外一个是存在硬盘的队列用于断点续传大家看 43 行self._dq() if self.dqdir else None 先是判断是否...

2018-01-12 06:59:00 133

转载 scrapyd 部署

步骤 1pip install scrapydpip install scrapy-client步骤 2修改scrapy.cfg[deploy:targetName]url = http://localhost:6800/project = projectName步骤 3scrapyd-deploy targetName -p projectName...

2017-12-27 13:05:00 95

转载 ken桑带你读源码之 scrapy_redis

首先更大家说下正式部署上线的爬虫会有分布式爬虫的需求而且原本scrapy 的seen (判断重复url的池不知道用啥词已抓url吧 ) 保存在磁盘url 队列也是保存在磁盘 (保存在磁盘对爬虫效率会极大影响)如果是断点重爬声明 jobdir 百分百是保存在磁盘不申明jobdir 的话保存在内存但会有单点内存的上限问题所以说那么...

2017-12-23 07:06:00 98

转载 ken桑带你读源码之scrapy scrapy\extensions

logstats.py 爬虫启动时打印抓取网页数 item数 memdebug.py 爬虫结束统计还被引用的内存也就是说gc 回收不了的内存　　memusage.py 监控爬虫内存占用一旦超过MEMUSAGE_LIMIT_MB 就stop spider 如果启动email 还会发送邮件抓取过程中还会...

2017-12-15 01:45:00 114

转载 ken桑带你读源码之scrapy downloadermiddlewares

downloadermiddlewares 文件夹是下载中间件其中process_request 还没请求时的处理函数process_response 请求之后的处理函数chunked.py 简单说就是传输网页数据非常大的或者数据长度不确定用到参考http://blog.csdn.net/whatday/article/details/75...

2017-12-14 04:14:00 105

转载 ken桑带你读源码之scrapy pipelines\images.py

大家先看看http://www.cnblogs.com/attitudeY/p/7078559.html 下面我做一些补充最新版本1.1 已经支持下载路径保存到 item 48行 DEFAULT_IMAGES_RESULT_FIELD = 'images' 作为保存下载地址key 同时我们会有保存缩略图的情况 sett...

2017-12-14 00:46:00 97

转载 ken桑带你读源码之scrapy

开篇声明文章讲解源码不一定从入口开始主题更注重思路讲解以及核心函数 ok? 废话到此为止/scrapy/downloadermiddlewares/ 文件夹下是下载器的中间件简单说就是你请求 or 返回数据都经过他其中def process_response(self, request, response, spider):处理返回数据d...

2017-11-17 15:22:00 119

anni0103的博客