基于HttpClient4.5实现网络爬虫

本文详细介绍了如何使用HttpClient4.5版本来模拟浏览器请求,进行网络爬虫的实现。通过PoolingHttpClientConnectionManager创建HttpClient实例,并设置了请求时间等相关参数。文中还对比了HttpClient3.0和4.5在Get、Post请求方式上的区别,并提供了对外可访问的方法。
摘要由CSDN通过智能技术生成

转载请注明出处:http://blog.csdn.net/xiaojimanman/article/details/53178307

http://www.llwjy.com/blogdetail/22e71755d13e76b8c10d357c0119c1c5.html

个人博客站已经上线了,网址 www.llwjy.com ~欢迎各位吐槽~

-------------------------------------------------------------------------------------------------

      在开始之前先打一个小小的广告,自己创建一个QQ群:321903218,点击链接加入群【Lucene案例开发】,主要用于交流如何使用Lucene来创建站内搜索后台,同时还会不定期的在群内开相关的公开课,感兴趣的童鞋可以加入交流。


写在开始之前

      这里做一个简短的说明,之前在博客《基于HttpClient实现网络爬虫~以百度新闻为例》介绍了如何基于HttpClient3.0来模拟浏览器请求,但从4.0版本之后,Apache就对这个包做了很大的改动,这里就针对目前比较新的版本4.5再来介绍下如何模拟浏览器的请求。在这里就不再介绍如何分析网页,如何确定请求的类型,就直接介绍如何来模拟浏览器的请求。


获取HttpClient

      在4.5版本中,获取HttpClient实例和之前还是有很大区别的,这里引用了一个PoolingHttpClientConnectionManager类,我们就通过这个类来介绍如何来创建HttpClient。这个类是Http链接管理类,因此在整个工程中我们将其定义为静态变量。

private static PoolingHttpClientConnectionManager cm;

      在静态方法中对其实现初始化的操作。

static {
	ConnectionSocketFactory plainsf = PlainConnectionSocketFactory.getSocketFactory();
	LayeredConnectionSocketFactory sslsf = SSLConnectionSocketFactory.getSocketFactory();
	Registry<ConnectionSocketFactory> registry = RegistryBuilder.<ConnectionSocketFactory>create()
	        .register("http", plainsf)
	        .register("https", sslsf)
	        .build();
	cm = new PoolingHttpClientConnectionManager(registry);
	//最大连接数
	cm.setMaxTotal(maxTotal);
	//每个路由基础的连接
	cm.setDefaultMaxPerRoute(defaultMaxPerRoute);
	//上面两句中的变量可以通过类的属性来确定
}
      这样就完成了PoolingHttpClientConnectionManager类的实例的初始化,
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值