自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

转载 laravel 上线部署最佳实践

nginx 配置 listen 80 default_server; server_name xxxx; index index.php index.html; 优先 index.php root /home/wwwroot/xxx/public/; add_header X-Frame-Options "SAMEORIGIN"...

2018-02-13 16:23:00 283

转载 ken桑带你读源码 之scrapy scrapy\core\scheduler.py

从英文来看是调度程序 我们看看是怎么调度  首先爬虫队列有两个 一个是保存在内存中 没有历史记录 重新开始 42行self.mqs = self.pqclass(self._newmq) 另外一个是存在硬盘的队列 用于断点续传 大家看 43 行self._dq() if self.dqdir else None 先是判断 是否...

2018-01-12 06:59:00 133

转载 scrapyd 部署

步骤 1pip install scrapydpip install scrapy-client步骤 2修改scrapy.cfg[deploy:targetName]url = http://localhost:6800/project = projectName步骤 3scrapyd-deploy targetName -p projectName...

2017-12-27 13:05:00 95

转载 ken桑带你读源码 之 scrapy_redis

首先更大家说下 正式部署上线的爬虫会有分布式爬虫的需求 而且原本scrapy 的seen (判断重复url的池 不知道用啥词 已抓url吧 ) 保存在磁盘url 队列 也是保存在磁盘 (保存在磁盘 对爬虫效率会极大影响)如果是断点重爬 声明 jobdir 百分百是保存在磁盘 不申明jobdir 的话保存在内存 但会有单点内存的上限问题 所以说那么...

2017-12-23 07:06:00 98

转载 ken桑带你读源码 之scrapy scrapy\extensions

logstats.py 爬虫启动时 打印抓取网页数 item数 memdebug.py 爬虫结束 统计还被引用的内存 也就是说gc 回收不了的内存  memusage.py 监控爬虫 内存占用 一旦超过MEMUSAGE_LIMIT_MB 就stop spider 如果启动email 还会发送邮件 抓取过程中 还会...

2017-12-15 01:45:00 114

转载 ken桑带你读源码之scrapy downloadermiddlewares

downloadermiddlewares 文件夹是下载中间件其中process_request 还没请求时的处理函数process_response 请求之后的处理函数chunked.py 简单说就是传输网页数据非常大的 或者 数据长度不确定用到 参考http://blog.csdn.net/whatday/article/details/75...

2017-12-14 04:14:00 105

转载 ken桑带你读源码 之scrapy pipelines\images.py

大家先看看http://www.cnblogs.com/attitudeY/p/7078559.html 下面我做一些补充 最新版本1.1 已经支持 下载路径保存到 item 48行 DEFAULT_IMAGES_RESULT_FIELD = 'images' 作为保存下载地址key 同时我们会有保存 缩略图的情况 sett...

2017-12-14 00:46:00 97

转载 ken桑带你读源码 之scrapy

开篇声明 文章讲解源码不一定从入口开始 主题更注重 思路讲解以及核心函数 ok? 废话到此为止/scrapy/downloadermiddlewares/ 文件夹下是下载器的 中间件 简单说就是 你请求 or 返回数据都经过他其中def process_response(self, request, response, spider):处理返回数据d...

2017-11-17 15:22:00 119

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除