自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 资源 (1)
  • 收藏
  • 关注

原创 第3.3章 scrapy之spiderkeeper

SpiderKeeper Git地址, 因为我们有10台爬虫机器,250个爬虫,于是安排同事使用spiderkeeper管理,但是在deploy环节,50个爬虫的时候,就发布不上去了,逼的我没办法,只能看源码,分析upload做了什么。 1 调试准备 执行pip install scrapyd进行安装,更改scrapyd的配置 将bind_address = 127.0.0.1更改为...

2018-06-25 13:34:45 1377 7

原创 第2.5章 headless

phantomjs过时了,出来了headless, selenium之 chromedriver与chrome版本对应表 chromedriver Mirror 1 安装chromedriverwget http://npm.taobao.org/mirrors/chromedriver/2.40/chromedriver_linux64.zipunzip chromedriver_li...

2018-06-23 08:09:20 285

原创 第2.4章 远程部署scrapyd工程

scrapy自身工程的部署参考 第1.8章 scrapy之完整工程部署 这里要将的的通过jenkins来部署scrapyd,我有10台机器,如果一台台手工敲,费时费力。 jenkins安装参考第1.1章 自动化测试之jenkins安装,这里不赘述 1 安装jenkins插件 按照上图中核心的那几个插件,检查是否有遗漏 2 配置credentials 这个是访问远程ssh的账号, ...

2018-06-22 11:29:24 435

原创 第5.1.1章 kafka重新分配partition

kafka是一个分布式(distributed)、分区(partioned)、复制(replicated)的提交日志服务。 kafka对消息保存时根据topic进行归类,发送消息为producer,消息接受者为consumer,在kafka集群中,kafka的实例成为broker(中间/代理人) kafka集群用于处理来自各种不同来源的所有活动数据,同时为在线和离线数据使用者提供了一个单个数据...

2018-06-21 13:38:30 7498 1

原创 第1.10章 scrapy之pypi-server的使用

pypi-server官网 pip install pypiserver-1.2.1-py2.py3-none-any.whl下载文件后,执行这个命令即可 然后执行nohup pypi-server -p 9090 /home/test/packages & 通过lsof -i:9090查看端口是否生效,即验证服务器是否正常启动 链接pypi-server安装文件pip...

2018-06-12 10:58:35 329

翻译 IPProxyPool改造

不对IPProxyPool源码进行褒贬,致敬开源精神,我根据自己的实际业务需要,对其进行稍作改在,同时解读他的设计思路。 我的python环境是python3, 1、ipproxy启动 查看IPProxy.py中,这里有四个进程 # 提供rest api服务 p0 = Process(target=start_api_server) # 代理爬取 p1 ...

2018-06-11 10:25:56 944

原创 反爬虫1

我是爬虫初学者,在爬虫中遇到的问题积累下来,总有些网站请求做了一些反爬虫的技术。思考一下,可以应用到自己的网站里面种。 使用fiddler抓包,我是按照下图过滤了一些信息. REGEX:\.(js|css|jpg|png|mp3|js\?.*|css?.*|jpg\?.*|png\?.*|mp3\?.*)$,将js、css、图片等隐藏掉,这些一般跟爬虫没太大关系,除非你爬取的就是图片或其他资...

2018-06-07 11:24:13 229

原创 TensorFlow识别验证码过程记录

最初的代码不是我写的,别人给我的,源代码的作者已经不知道了,抱歉,在简书上找到类似的TensorFlow练习20: 使用深度学习破解字符验证码。这里我作为一个初学者,打算从零开始记录我学习的全过程。 1.下载图片存储并转为数组import os,requests,reimport randomimport numpy as npfrom PIL import Imagefrom ...

2018-06-04 14:53:54 5830 3

mybatis代码生成插件

mybatis代码生成插件

2016-09-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除