- 博客(8)
- 收藏
- 关注
转载 laravel 上线部署最佳实践
nginx 配置 listen 80 default_server; server_name xxxx; index index.php index.html; 优先 index.php root /home/wwwroot/xxx/public/; add_header X-Frame-Options "SAMEORIGIN"...
2018-02-13 16:23:00 283
转载 ken桑带你读源码 之scrapy scrapy\core\scheduler.py
从英文来看是调度程序 我们看看是怎么调度 首先爬虫队列有两个 一个是保存在内存中 没有历史记录 重新开始 42行self.mqs = self.pqclass(self._newmq) 另外一个是存在硬盘的队列 用于断点续传 大家看 43 行self._dq() if self.dqdir else None 先是判断 是否...
2018-01-12 06:59:00 133
转载 scrapyd 部署
步骤 1pip install scrapydpip install scrapy-client步骤 2修改scrapy.cfg[deploy:targetName]url = http://localhost:6800/project = projectName步骤 3scrapyd-deploy targetName -p projectName...
2017-12-27 13:05:00 95
转载 ken桑带你读源码 之 scrapy_redis
首先更大家说下 正式部署上线的爬虫会有分布式爬虫的需求 而且原本scrapy 的seen (判断重复url的池 不知道用啥词 已抓url吧 ) 保存在磁盘url 队列 也是保存在磁盘 (保存在磁盘 对爬虫效率会极大影响)如果是断点重爬 声明 jobdir 百分百是保存在磁盘 不申明jobdir 的话保存在内存 但会有单点内存的上限问题 所以说那么...
2017-12-23 07:06:00 98
转载 ken桑带你读源码 之scrapy scrapy\extensions
logstats.py 爬虫启动时 打印抓取网页数 item数 memdebug.py 爬虫结束 统计还被引用的内存 也就是说gc 回收不了的内存 memusage.py 监控爬虫 内存占用 一旦超过MEMUSAGE_LIMIT_MB 就stop spider 如果启动email 还会发送邮件 抓取过程中 还会...
2017-12-15 01:45:00 114
转载 ken桑带你读源码之scrapy downloadermiddlewares
downloadermiddlewares 文件夹是下载中间件其中process_request 还没请求时的处理函数process_response 请求之后的处理函数chunked.py 简单说就是传输网页数据非常大的 或者 数据长度不确定用到 参考http://blog.csdn.net/whatday/article/details/75...
2017-12-14 04:14:00 105
转载 ken桑带你读源码 之scrapy pipelines\images.py
大家先看看http://www.cnblogs.com/attitudeY/p/7078559.html 下面我做一些补充 最新版本1.1 已经支持 下载路径保存到 item 48行 DEFAULT_IMAGES_RESULT_FIELD = 'images' 作为保存下载地址key 同时我们会有保存 缩略图的情况 sett...
2017-12-14 00:46:00 97
转载 ken桑带你读源码 之scrapy
开篇声明 文章讲解源码不一定从入口开始 主题更注重 思路讲解以及核心函数 ok? 废话到此为止/scrapy/downloadermiddlewares/ 文件夹下是下载器的 中间件 简单说就是 你请求 or 返回数据都经过他其中def process_response(self, request, response, spider):处理返回数据d...
2017-11-17 15:22:00 119
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人