爬虫
镹丶天
好男儿当志在天下,好男儿亦不负红颜!
展开
-
Spider 中间件(Middleware)
Spider 中间件(Middleware) 下载器中间件是介入到 Scrapy 的 spider 处理机制的钩子框架,您可以添加代码来处理发送给 Spiders 的 response 及 spider 产生的 item 和 request。激活 spider 中间件 要启用 spider 中间件,您可以将其加入到 SPIDER_MIDDLEWARES 设置中。该设置是一个字典,键位中间件的路径转载 2017-02-09 09:43:11 · 5502 阅读 · 0 评论 -
Scrapy+phantomjs爬取动态网页数据
安装phantomjs安装包下载地址: http://phantomjs.org/ ,包括 Windows ,Mac OS,Linux版本,自行选择对应 版本下载解压即可( 为方便使用,可自已为phantomjs设置环境变量 ),其中带有一个example文件夹,里面有很多已经写好的代码供使用。本文假设phantomjs已经安装好并已设置了环境变量。Scrapy 中在setting 文件设置#pha原创 2017-02-09 10:30:42 · 4882 阅读 · 1 评论 -
Scrapy配置篇
官方设置文档:1.0版本文档https://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/overview.html1.3版本文档http://scrapy.readthedocs.io/en/latest/topics/settings.html1.命令行提供的参数是具有最高优先项,覆盖任何其他选项。可以明确的覆盖使用一个或多个设置 -s (–set)原创 2017-01-23 11:20:49 · 903 阅读 · 0 评论 -
C#验证代理Ip地址
码上来了?命名空间: using System.Net; using System.Text; /// <summary> /// 验证IP地址 /// </summary> /// <param name="str">Ip地址</param> /// <param name="port">端口号</param>原创 2017-02-10 18:07:39 · 932 阅读 · 0 评论 -
Hbase-Shell常用命令
hbase command查询状态:status 查询版本:version创建表对象: create ¨t¨,¨t_id¨,¨t_vl¨ ,第一个参数用于指定表名,后面跟的所有参数都是列族的名称 查看表对象:list 查看表结构: desc修改表对象,修改(含删除)前必须首先禁用对象,执行修改命令成功后,再启用对象。 禁用对象: disable ¨t¨判断当前表对象启用或禁用:is_ena原创 2017-02-10 18:11:03 · 219 阅读 · 0 评论 -
PyCharmMac键盘符
Mac键盘符号和修饰键说明 ⌘ Command ⇧ Shift ⌥ Option ⌃ Control ↩︎ Return/Enter ⌫ Delete ⌦ 向前删除键(Fn+Delete) ↑ 上箭头 ↓ 下箭头 ← 左箭头 → 右箭头 ⇞ Page Up(Fn+↑) ⇟ Page Down(Fn+↓) Home Fn + ← End Fn + → ⇥ 右制表符(Ta原创 2017-10-13 16:03:26 · 439 阅读 · 0 评论 -
那些年踩过的坑
报错:No module named builtinssudo pip install future原创 2017-02-15 16:07:03 · 583 阅读 · 1 评论