自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 Selenium2.41.0—获取动态资源

编写不易,转载请注明(http://shihlei.iteye.com/blog/2067716)!一概述    获取动态资源,可以使用HtmlUnit,但是其对JS的支持还是不够完善。相对与HtmlUnit还有一种驱动浏览器的下载还原工具Selenium。可以打开浏览器,获取网页,下载解析,支持dom,js,解析效果更好,但是打开浏览器速度方面有一定损失。个人实验,禁用CSS,图片下...

2014-05-17 21:18:08 124

原创 HtmlUnit2.14使用样例—获取动态网页

编写不易,转载请注明(http://shihlei.iteye.com/blog/2067707)!一 概述     HttpClient适合处理静态资源,网络爬虫等类似应用很大程度需要处理动态网页(内容有js填充,如百度图片,body里基本没有数据,碰到最麻烦的是新浪微博列表页)。将网页下载后,结合JS和Dom模型还原网页,我目前还未攻破,但在下载层还原网页,HtmlUnit是一...

2014-05-17 19:40:38 759

原创 HttpClient4.3.3 使用样例—获取静态资源

编写不易,转载请注明(http://shihlei.iteye.com/blog/2067688)!一 概述     HttpClient是最常见的Http请求工具,很好的封装 Http请求,响应,Cookies操作,适合网络爬虫处理静态页面及其他资源。    HttpCient能自动处理302客户端重定向,这个很喜欢!    HttpClient4.3.3 API较之前的...

2014-05-17 17:49:24 450

原创 CDH4.4-MRV1 HA 安装手册

 编写不易,转载请注明(http://shihlei.iteye.com/blog/2066627)!一 概述     公司使用CDH4的环境,Job运行时环境选择的是MRV1,网络上搭建CDH4.4 HDFS ,MRV1 HA环境的资料非常少。尝试搭建,并将过程记录于《Hadoop_CDH4.4.0_MRV1_CDH4.2.2_安装手册_v0.2》; 二 规划 ...

2014-05-15 09:58:50 105

原创 Java 枚举

注:文章内容大量借鉴使用网上的资料,可惜没有记录参考地址,只能再传对作者说声抱歉并表示感谢! 一 基础1)语法     枚举类型只能有私有构造器(这样做可以保证客户代码没有办法新建一个enum的实例)     枚举实例必须最先定义2)特性     所有枚举实例都是public , static , final     实例存在顺序,定义从上倒下,顺...

2014-05-12 09:59:14 76

原创 ssh 配置及使用(ssh-keygen,ssh-copy-id,known_hosts)

一 核心命令创建密钥对:ssh-keygen转发密钥:ssh-copy-id -i ~/.ssh/id_rsa.pub puppet@Hadoop-NN-02     常用密钥类型:ssh-keygen -t dsa ssh-keygen -t rsa ssh-keygen -t rsa1二 原理(一)基础     1) 公钥:用于加密,存在于...

2014-05-10 17:14:51 2410

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除