HttpClient

一、HttpClient入门
HttpClient 是 Apache Jakarta Common 下的子项目,可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient,然后根据作者实际工作经验给出了一些常见问题的解决方法。
HttpClient 基本功能的使用
(一)、GET 方法
使用 HttpClient 需要以下 6 个步骤:
1. 创建 HttpClient 的实例
2. 创建某种连接方法的实例,在这里是 GetMethod。在 GetMethod 的构造函数中传入待连接的地址
3. 调用第一步中创建好的实例的 execute 方法来执行第二步中创建好的 method 实例
4. 读 response
5. 释放连接。无论执行方法是否成功,都必须释放连接
6. 对得到后的内容进行处理
根据以上步骤,我们来编写用GET方法来取得某网页内容的代码。
• 大部分情况下 HttpClient 默认的构造函数已经足够使用。
HttpClient httpClient = new HttpClient();
• 创建GET方法的实例。在GET方法的构造函数中传入待连接的地址即可。用GetMethod将会自动处理转发过程,如果想要把自动处理转发过程去掉的话,可以调用方法setFollowRedirects(false)。
GetMethod getMethod = new GetMethod("http://www.ibm.com/");
• 调用实例httpClient的executeMethod方法来执行getMethod。由于是执行在网络上的程序,在运行executeMethod方法的时候,需要处理两个异常,分别是HttpException和IOException。引起第一种异常的原因主要可能是在构造getMethod的时候传入的协议不对,比如不小心将"http"写成"htp",或者服务器端返回的内容不正常等,并且该异常发生是不可恢复的;第二种异常一般是由于网络原因引起的异常,对于这种异常 (IOException),HttpClient会根据你指定的恢复策略自动试着重新执行executeMethod方法。HttpClient的恢复策略可以自定义(通过实现接口HttpMethodRetryHandler来实现)。通过httpClient的方法setParameter设置你实现的恢复策略,本文中使用的是系统提供的默认恢复策略,该策略在碰到第二类异常的时候将自动重试3次。executeMethod返回值是一个整数,表示了执行该方法后服务器返回的状态码,该状态码能表示出该方法执行是否成功、需要认证或者页面发生了跳转(默认状态下GetMethod的实例是自动处理跳转的)等。
//设置成了默认的恢复策略,在发生异常时候将自动重试3次,在这里你也可以设置成自定义的恢复策略
getMethod.getParams().setParameter(HttpMethodParams.RETRY_HANDLER,
    new DefaultHttpMethodRetryHandler());
//执行getMethod
int statusCode = client.executeMethod(getMethod);
if (statusCode != HttpStatus.SC_OK) {
  System.err.println("Method failed: " + getMethod.getStatusLine());
}
• 在返回的状态码正确后,即可取得内容。取得目标地址的内容有三种方法:第一种,getResponseBody,该方法返回的是目标的二进制的byte流;第二种,getResponseBodyAsString,这个方法返回的是String类型,值得注意的是该方法返回的String的编码是根据系统默认的编码方式,所以返回的String值可能编码类型有误,在本文的"字符编码"部分中将对此做详细介绍;第三种,getResponseBodyAsStream,这个方法对于目标地址中有大量数据需要传输是最佳的。在这里我们使用了最简单的getResponseBody方法。
byte[] responseBody = method.getResponseBody();
• 释放连接。无论执行方法是否成功,都必须释放连接。
method.releaseConnection();
• 处理内容。在这一步中根据你的需要处理内容,在例子中只是简单的将内容打印到控制台。
System.out.println(new String(responseBody));
下面是程序的完整代码,这些代码也可在附件中的test.GetSample中找到。
package test;
import java.io.IOException;
import org.apache.commons.httpclient.*;
import org.apache.commons.httpclient.methods.GetMethod;
import org.apache.commons.httpclient.params.HttpMethodParams;
public class GetSample{
  public static void main(String[] args) {
  //构造HttpClient的实例
  HttpClient httpClient = new HttpClient();
  //创建GET方法的实例
  GetMethod getMethod = new GetMethod("http://www.ibm.com");
  //使用系统提供的默认的恢复策略
  getMethod.getParams().setParameter(HttpMethodParams.RETRY_HANDLER,
    new DefaultHttpMethodRetryHandler());
  try {
   //执行getMethod
   int statusCode = httpClient.executeMethod(getMethod);
   if (statusCode != HttpStatus.SC_OK) {
    System.err.println("Method failed: "
      + getMethod.getStatusLine());
   }
   //读取内容
   byte[] responseBody = getMethod.getResponseBody();
   //处理内容
   System.out.println(new String(responseBody));
  } catch (HttpException e) {
   //发生致命的异常,可能是协议不对或者返回的内容有问题
   System.out.println("Please check your provided http address!");
   e.printStackTrace();
  } catch (IOException e) {
   //发生网络异常
   e.printStackTrace();
  } finally {
   //释放连接
   getMethod.releaseConnection();
  }
}
}
(二)、POST方法
根据RFC2616,对POST的解释如下:POST方法用来向目的服务器发出请求,要求它接受被附在请求后的实体,并把它当作请求队列(Request-Line)中请求URI所指定资源的附加新子项。POST被设计成用统一的方法实现下列功能:
• 对现有资源的注释(Annotation of existing resources)
• 向电子公告栏、新闻组,邮件列表或类似讨论组发送消息
• 提交数据块,如将表单的结果提交给数据处理过程
• 通过附加操作来扩展数据库
调用HttpClient中的PostMethod与GetMethod类似,除了设置PostMethod的实例与GetMethod有些不同之外,剩下的步骤都差不多。在下面的例子中,省去了与GetMethod相同的步骤,只说明与上面不同的地方,并以登录清华大学BBS为例子进行说明。
• 构造PostMethod之前的步骤都相同,与GetMethod一样,构造PostMethod也需要一个URI参数,在本例中,登录的地址是http://www.newsmth.net/bbslogin2.php。在创建了PostMethod的实例之后,需要给method实例填充表单的值,在BBS的登录表单中需要有两个域,第一个是用户名(域名叫id),第二个是密码(域名叫passwd)。表单中的域用类NameValuePair来表示,该类的构造函数第一个参数是域名,第二参数是该域的值;将表单所有的值设置到PostMethod中用方法setRequestBody。另外由于BBS登录成功后会转向另外一个页面,但是HttpClient对于要求接受后继服务的请求,比如POST和PUT,不支持自动转发,因此需要自己对页面转向做处理。具体的页面转向处理请参见下面的"自动转向"部分。代码如下:
String url = "http://www.newsmth.net/bbslogin2.php";
PostMethod postMethod = new PostMethod(url);
// 填入各个表单域的值
NameValuePair[] data = { new NameValuePair("id", "youUserName"),
new NameValuePair("passwd", "yourPwd") };
// 将表单的值放入postMethod中
postMethod.setRequestBody(data);
// 执行postMethod
int statusCode = httpClient.executeMethod(postMethod);
// HttpClient对于要求接受后继服务的请求,象POST和PUT等不能自动处理转发
// 301或者302
if (statusCode == HttpStatus.SC_MOVED_PERMANENTLY ||
statusCode == HttpStatus.SC_MOVED_TEMPORARILY) {
    // 从头中取出转向的地址
    Header locationHeader = postMethod.getResponseHeader("location");
    String location = null;
    if (locationHeader != null) {
     location = locationHeader.getValue();
     System.out.println("The page was redirected to:" + location);
    } else {
     System.err.println("Location field value is null.");
    }
    return;
}

二、HttpClient一些问题
下面介绍在使用HttpClient过程中常见的一些问题。
(一)、字符编码
某目标页的编码可能出现在两个地方,第一个地方是服务器返回的http头中,另外一个地方是得到的html/xml页面中。
• 在http头的Content-Type字段可能会包含字符编码信息。例如可能返回的头会包含这样子的信息:Content-Type: text/html; charset=UTF-8。这个头信息表明该页的编码是UTF-8,但是服务器返回的头信息未必与内容能匹配上。比如对于一些双字节语言国家,可能服务器返回的编码类型是UTF-8,但真正的内容却不是UTF-8编码的,因此需要在另外的地方去得到页面的编码信息;但是如果服务器返回的编码不是UTF-8,而是具体的一些编码,比如gb2312等,那服务器返回的可能是正确的编码信息。通过method对象的getResponseCharSet()方法就可以得到http头中的编码信息。
• 对于象xml或者html这样的文件,允许作者在页面中直接指定编码类型。比如在html中会有<meta http-equiv="Content-Type" content="text/html; charset=gb2312"/>这样的标签;或者在xml中会有<?xml version="1.0" encoding="gb2312"?>这样的标签,在这些情况下,可能与http头中返回的编码信息冲突,需要用户自己判断到底那种编码类型应该是真正的编码。
编码问题解决
private static final String CONTENT_CHARSET = "GBK";// httpclient读取内容时使用的字符集  
HttpClient client = new HttpClient();  
client.getParams().setParameter(  
HttpMethodParams.HTTP_CONTENT_CHARSET, CONTENT_CHARSET);

字符串编码改变的方法:String target = new String(orig.getBytes("ISO-8859-1"),"GBK");


(二)、认证
HttpClient三种不同的认证方案: Basic, Digest and NTLM. 这些方案可用于服务器或代理对客户端的认证,简称服务器认证或代理认证。
1) 服务器认证(Server Authentication)
HttpClient处理服务器认证几乎是透明的,仅需要开发人员提供登录信息(login credentials)。登录信息保存在HttpState类的实例中,可以通过 setCredentials(String realm, Credentials cred)和getCredentials(String realm)来获取或设置。注意,设定对非特定站点访问所需要的登录信息,将realm参数置为null. HttpClient内建的自动认证,可以通过HttpMethod类的setDoAuthentication(boolean doAuthentication)方法关闭,而且这次关闭只影响HttpMethod当前的实例。
抢先认证(Preemptive Authentication)可以通过下述方法打开.
client.getState().setAuthenticationPreemptive(true);
在这种模式时,HttpClient会主动将basic认证应答信息传给服务器,即使在某种情况下服务器可能返回认证失败的应答,这样做主要是为了减少连接的建立。为使每个新建的 HttpState实例都实行抢先认证,可以如下设置系统属性。
setSystemProperty(Authenticator.PREEMPTIVE_PROPERTY, "true");
Httpclient实现的抢先认证遵循rfc2617.
2)代理认证(proxy authentication)
除了登录信息需单独存放以外,代理认证与服务器认证几乎一致。用 setProxyCredentials(String realm, Credentials cred)和 getProxyCredentials(String realm)设、取登录信息。
2) 认证方案(authentication schemes)
Basic
是HTTP中规定最早的也是最兼容(?)的方案,遗憾的是也是最不安全的一个方案,因为它以明码传送用户名和密码。它要求一个UsernamePasswordCredentials实例,可以指定服务器端的访问空间或采用默认的登录信息。
Digest
是在HTTP1.1中增加的一个方案,虽然不如Basic得到的软件支持多,但还是有广泛的使用。Digest方案比Basic方案安全得多,因它根本就不通过网络传送实际的密码,传送的是利用这个密码对从服务器传来的一个随机数(nonce)的加密串。它要求一个UsernamePasswordCredentials实例,可以指定服务器端的访问空间或采用默认的登录信息。
NTLM
这是HttpClient支持的最复杂的认证协议。它M$设计的一个私有协议,没有公开的规范说明。一开始由于设计的缺陷,NTLM的安全性比Digest差,后来经过一个ServicePack补丁后,安全性则比较Digest高。NTLM需要一个NTCredentials实例. 注意,由于NTLM不使用访问空间(realms)的概念,HttpClient利用服务器的域名作访问空间的名字。还需要注意,提供给NTCredentials的用户名,不要用域名的前缀 - 如: "adrian" 是正确的,而 "DOMAIN\adrian" 则是错的. NTLM认证的工作机制与basic和digest有很大的差别。这些差别一般由HttpClient处理,但理解这些差别有助避免在使用NTLM认证时出现错误。
从HttpClientAPI的角度来看,NTLM与其它认证方式一样的工作,差别是需要提供'NTCredentials'实例而不是'UsernamePasswordCredentials'(其实,前者只是扩展了后者)对NTLM认证,访问空间是连接到的机器的域名,这对多域名主机会有一些麻烦.只有HttpClient连接中指定的域名才是认证用的域名。建议将realm设为null以使用默认的设置。NTLM只是认证了一个连接而不是一请求,所以每当一个新的连接建立就要进行一次认证,且在认证的过程中保持连接是非常重要的。 因此,NTLM不能同时用于代理认证和服务器认证,也不能用于http1.0连接或服务器不支持持久连接的情况。
(三)、重定向
由于技术限制,以及为保证2.0发布版API的稳定,HttpClient还不能自动处重定向,但对重定向到同一主机、同一端口且采用同一协议的情况HttpClient可以支持。不能自动的处理的情况,包括需要人工交互的情况,或超出httpclient的能力。
当服务器重定向指令指到不同的主机时,HttpClient只是简单地将重定向状态码作为应答状态。所有的300到399(包含两端)的返回码,都表示是重定向应答。常见的有:
301 永久移动. HttpStatus.SC_MOVED_PERMANENTLY
302 临时移动. HttpStatus.SC_MOVED_TEMPORARILY
303 See Other. HttpStatus.SC_SEE_OTHER
307 临时重定向. HttpStatus.SC_TEMPORARY_REDIRECT  
当收到简单的重定向时,程序应从HttpMethod对象中抽取新的URL并将其下载。另外,限制一下重定向次数是个好的主意,这可以避免递归循环。新的URL可以从头字段Location中抽取,如下:
String redirectLocation;
Header locationHeader = method.getResponseHeader("location");
if (locationHeader != null) {
redirectLocation = locationHeader.getValue();
} else {
// The response is invalid and did not provide the new location for
// the resource. Report an error or possibly handle the response
// like a 404 Not Found error.
}
特殊重定向:
300 多重选择. HttpStatus.SC_MULTIPLE_CHOICES
304 没有改动. HttpStatus.SC_NO T_MODIFIED
305 使用代理. HttpStatus.SC_USE_PROXY

(四)、自动转向
根据RFC2616中对自动转向的定义,主要有两种:301和302。301表示永久的移走(Moved Permanently),当返回的是301,则表示请求的资源已经被移到一个固定的新地方,任何向该地址发起请求都会被转到新的地址上。302表示暂时的转向,比如在服务器端的servlet程序调用了sendRedirect方法,则在客户端就会得到一个302的代码,这时服务器返回的头信息中location的值就是sendRedirect转向的目标地址。
HttpClient支持自动转向处理,但是象POST和PUT方式这种要求接受后继服务的请求方式,暂时不支持自动转向,因此如果碰到POST方式提交后返回的是301或者302的话需要自己处理。就像刚才在POSTMethod中举的例子:如果想进入登录BBS后的页面,必须重新发起登录的请求,请求的地址可以在头字段location中得到。不过需要注意的是,有时候location返回的可能是相对路径,因此需要对location返回的值做一些处理才可以发起向新地址的请求。
另外除了在头中包含的信息可能使页面发生重定向外,在页面中也有可能会发生页面的重定向。引起页面自动转发的标签是:<meta http-equiv="refresh" content="5; url=http://www.ibm.com/us">。如果你想在程序中也处理这种情况的话得自己分析页面来实现转向。需要注意的是,在上面那个标签中url的值也可以是一个相对地址,如果是这样的话,需要对它做一些处理后才可以转发。
(五)、Cookies
   HttpClient能自动管理cookie,包括允许服务器设置cookie并在需要的时候自动将cookie返回服务器,它也支持手工设置cookie后发送到服务器端。不幸的是,对如何处理cookie,有几个规范互相冲突:Netscape Cookie 草案, RFC2109, RFC2965,而且还有很大数量的软件商的cookie实现不遵循任何规范. 为了处理这种状况,HttpClient提供了策略驱动的cookie管理方式。HttpClient支持的cookie规范有: Netscape cookie草案,是最早的cookie规范,基于rfc2109。尽管这个规范与rc2109有较大的差别,这样做可以与一些服务器兼容。rfc2109,是w3c发布的第一个官方cookie规范。理论上讲,所有的服务器在处理cookie(版本1)时,都要遵循此规范,正因如此,HttpClient将其设为默认的规范。遗憾的是,这个规范太严格了,以致很多服务器不正确的实施了该规范或仍在作用Netscape规范。在这种情况下,应使用兼容规范。兼容性规范,设计用来兼容尽可能多的服务器,即使它们并没有遵循标准规范。当解析cookie出现问题时,应考虑采用兼容性规范。
   RFC2965规范暂时没有被HttpClient支持(在以后的版本为会加上),它定义了cookie版本2,并说明了版本1cookie的不足,RFC2965有意有久取代rfc2109.
在HttpClient中,有两种方法来指定cookie规范的使用,
HttpClient client = new HttpClient();
client.getState().setCookiePolicy(CookiePolicy.COMPATIBILITY);
这种方法设置的规范只对当前的HttpState有效,参数可取值CookiePolicy.COMPATIBILITY,CookiePolicy.NETSCAPE_DRAFT或CookiePolicy.RFC2109。
System.setProperty("apache.commons.httpclient.cookiespec", "COMPATIBILITY");
此法指的规范,对以后每个新建立的HttpState对象都有效,参数可取值"COMPATIBILITY","NETSCAPE_DRAFT"或"RFC2109"。
常有不能解析cookie的问题,但更换到兼容规范大都能解决。
(六)、使用HttpClient遇到问题怎么办?
用一个浏览器访问服务器,以确认服务器应答正常如果在使代理,关掉代理试试另找一个服务器来试试(如果运行着不同的服务器软件更好)检查代码是否按教程中讲的思路编写设置log级别为debug,找出问题出现的原因打开wiretrace,来追踪客户端与服务器的通信,以确实问题出现在什么地方用telnet或netcat手工将信息发送到服务器,适合于猜测已经找到了原因而进行试验时将netcat以监听方式运行,用作服务器以检查httpclient如何处理应答的。利用最新的httpclient试试,bug可能在最新的版本中修复了向邮件列表求帮助向bugzilla报告bug.
(七)、SSL
借助Java Secure Socket Extension (JSSE),HttpClient全面支持Secure Sockets Layer (SSL)或IETF Transport Layer Security (TLS)协议上的HTTP。JSSE已经jre1.4及以后的版本中,以前的版本则需要手工安装设置,具体过程参见Sun网站或本学习笔记。
HttpClient中使用SSL非常简单,参考下面两个例子:
HttpClient httpclient = new HttpClient();
GetMethod httpget = new GetMethod("https://www.verisign.com/");
httpclient.executeMethod(httpget);
System.out.println(httpget.getStatusLine().toString());
,如果通过需要授权的代理,则如下:
HttpClient httpclient = new HttpClient();
httpclient.getHostConfiguration().setProxy("myproxyhost", 8080);
httpclient.getState().setProxyCredentials("my-proxy-realm", " myproxyhost",
new UsernamePasswordCredentials("my-proxy-username", "my-proxy-password"));
GetMethod httpget = new GetMethod("https://www.verisign.com/");
httpclient.executeMethod(httpget);
System.out.println(httpget.getStatusLine().toString());
在HttpClient中定制SSL的步骤如下:
提供了一个实现了org.apache.commons.httpclient.protocol.SecureProtocolSocketFactory接口的socket factory。这个 socket factory负责打一个到服务器的端口,使用标准的或第三方的SSL函数库,并进行象连接握手等初始化操作。通常情况下,这个初始化操作在端口被创建时自动进行的。实例化一个org.apache.commons.httpclient.protocol.Protocol对象。创建这个实例时,需要一个合法的协议类型(如https),一个定制的socket factory,和一个默认的端中号(如https的443端口). Protocol myhttps = new Protocol("https", new MySSLSocketFactory(), 443);然后,这个实例可被设置为协议的处理器。
HttpClient httpclient = new HttpClient();
httpclient.getHostConfiguration().setHost("www.whatever.com", 443, myhttps);
GetMethod httpget = new GetMethod("/");
httpclient.executeMethod(httpget);
通过调用Protocol.registerProtocol方法,将此定制的实例,注册为某一特定协议的默认的处理器。由此,可以很方便地定制自己的协议类型(如myhttps)。
Protocol.registerProtocol("myhttps",
new Protocol("https", new MySSLSocketFactory(), 9443));
...
HttpClient httpclient = new HttpClient();
GetMethod httpget = new GetMethod("myhttps://www.whatever.com/");
httpclient.executeMethod(httpget);
如果想用自己定制的处理器取代https默认的处理器,只需要将其注册为"https"即可。
Protocol.registerProtocol("https",
new Protocol("https", new MySSLSocketFactory(), 443));
HttpClient httpclient = new HttpClient();
GetMethod httpget = new GetMethod("https://www.whatever.com/");
httpclient.executeMethod(httpget);
已知的限制和问题持续的SSL连接在Sun的低于1.4JVM上不能工作,这是由于JVM的bug造成。通过代理访问服务器时,非抢先认证( Non-preemptive authentication)会失败,这是由于HttpClient的设计缺陷造成的,以后的版本中会修改。
遇到问题的处理
很多问题,特别是在jvm低于1.4时,是由jsse的安装造成的。
下面的代码,可作为最终的检测手段。
import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.io.Writer;
import java.net.Socket;
import javax.net.ssl.SSLSocketFactory;
public class Test {
public static final String TARGET_HTTPS_SERVER = "www.verisign.com";
public static final int TARGET_HTTPS_PORT = 443;
public static void main(String[] args) throws Exception {
Socket socket = SSLSocketFactory.getDefault().
createSocket(TARGET_HTTPS_SERVER, TARGET_HTTPS_PORT);
try {
Writer out = new OutputStreamWriter(
socket.getOutputStream(), "ISO-8859-1");
out.write("GET / HTTP/1.1\r\n");
out.write("Host: " + TARGET_HTTPS_SERVER + ":" +
TARGET_HTTPS_PORT + "\r\n");
out.write("Agent: SSL-TEST\r\n");
out.write("\r\n");
out.flush();
BufferedReader in = new BufferedReader(
new InputStreamReader(socket.getInputStream(), "ISO-8859-1"));
String line = null;
while ((line = in.readLine()) != null) {
System.out.println(line);
}
} finally {
socket.close();
}
}
}
(八)、httpclient的多线程处理
使用多线程的主要目的,是为了实现并行的下载。在httpclient运行的过程中,每个http协议的方法,使用一个HttpConnection实例。由于连接是一种有限的资源,每个连接在某一时刻只能供一个线程和方法使用,所以需要确保在需要时正确地分配连接。HttpClient采用了一种类似jdbc连接池的方法来管理连接,这个管理工作由 MultiThreadedHttpConnectionManager完成。
MultiThreadedHttpConnectionManager connectionManager =
new MultiThreadedHttpConnectionManager();
HttpClient client = new HttpClient(connectionManager);
此是,client可以在多个线程中被用来执行多个方法。每次调用HttpClient.executeMethod() 方法,都会去链接管理器申请一个连接实例,申请成功这个链接实例被签出(checkout),随之在链接使用完后必须归还管理器。管理器支持两个设置:maxConnectionsPerHost 每个主机的最大并行链接数,默认为2
maxTotalConnections 客户端总并行链接最大数,默认为20
管理器重新利用链接时,采取早归还者先重用的方式(least recently used approach)。  由于是使用HttpClient的程序而不是HttpClient本身来读取应答包的主体,所以HttpClient无法决定什么时间连接不再使用了,这也就要求在读完应答包的主体后必须手工显式地调用releaseConnection()来释放申请的链接。
MultiThreadedHttpConnectionManager connectionManager = new
MultiThreadedHttpConnectionManager();
HttpClient client = new HttpClient(connectionManager);
...
// 在某个线程中。
GetMethod get = new GetMethod("http://jakarta.apache.org/");
try {
client.executeMethod(get);
// print response to stdout
System.out.println(get.getResponseBodyAsStream());
} finally {
// be sure the connection is released back to the connection
// manager
get.releaseConnection();
}
对每一个HttpClient.executeMethod须有一个method.releaseConnection()与之匹配.
(九)、HttpClient的连接释放问题
在method.releaseConnection()后并没有把链接关闭,这个方法只是将链接返回给connection manager。
如果使用HttpClient client = new HttpClient()实例化一个HttpClient connection manager默认实现是使用SimpleHttpConnectionManager。
SimpleHttpConnectionManager有个构造函数如下
public SimpleHttpConnectionManager(boolean alwaysClose) {  
    super();  
    this.alwaysClose = alwaysClose;  

alwaysClose设为true在链接释放之后connection manager 就会关闭链。在我们HttpClient client = new HttpClient()这样实例化一个client时connection manager是这样被实例化的
this.httpConnectionManager = new SimpleHttpConnectionManager(); 
因此alwaysClose默认是false,connection是不会被主动关闭的,因此我们就有了一个客户端关闭链接的方法。
解决方法:
1、把事例代码中的第一行实例化代码改为如下即可,在method.releaseConnection();之后connection manager会关闭connection 。
HttpClient client = new HttpClient(new HttpClientParams(),new SimpleHttpConnectionManager(true) ); 
2、实例化代码使用:HttpClient client = new HttpClient(); 在method.releaseConnection();之后加上 ((SimpleHttpConnectionManager)client.getHttpConnectionManager()).shutdown();
其实shutdown源代码是 
public void shutdown() {  
    httpConnection.close();  

3、实例化代码使用:HttpClient client = new HttpClient();
在method.releaseConnection();之后加上
client.getHttpConnectionManager().closeIdleConnections(0);此方法源码代码如下:
public void closeIdleConnections(long idleTimeout) {  
    long maxIdleTime = System.currentTimeMillis() - idleTimeout;  
    if (idleStartTime <= maxIdleTime) {  
        httpConnection.close();  
    }  
}
4、代码实现很简单,所有代码就和最上面的事例代码一样。只需要在HttpMethod method = new GetMethod("http://www.apache.org");加上一行HTTP头的设置即可method.setRequestHeader("Connection", "close");
(十)、HttpClient的一个应用的例子(图片下载)
1. import java.io.File;  
2. import java.io.FileOutputStream;  
3. import java.io.IOException;  
4. import org.apache.commons.httpclient.HttpClient;  
5. import org.apache.commons.httpclient.methods.GetMethod;  
6.   
7. /** 
8. * 用HttpClient下载图片 
9. * @author wei 
10. */  
11. public class TestDownImage {  
12.       
13.     public static void main(String[] args) throws IOException{  
14.         HttpClient client = new HttpClient();  
15.         GetMethod get = new GetMethod("http://images.sohu.com/uiue/sohu_logo/beijing2008/2008sohu.gif");  
16.         client.executeMethod(get);  
17.         File storeFile = new File("c:/2008sohu.gif");  
18.         FileOutputStream output = new FileOutputStream(storeFile);  
19.         //得到网络资源的字节数组,并写入文件  
20.         output.write(get.getResponseBody());  
21.         output.close();  
22.     }  
23. }

 

 

可以直接用的封装工具类

package com.surfilter.collector.util;

import java.io.EOFException;
import java.io.IOException;
import java.io.InputStream;
import java.io.UnsupportedEncodingException;
import java.util.concurrent.TimeUnit;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import java.util.zip.GZIPInputStream;

import javax.net.ssl.SSLHandshakeException;

import org.apache.commons.lang.StringUtils;
import org.apache.http.Header;
import org.apache.http.HeaderElement;
import org.apache.http.HttpEntity;
import org.apache.http.HttpEntityEnclosingRequest;
import org.apache.http.HttpException;
import org.apache.http.HttpHost;
import org.apache.http.HttpRequest;
import org.apache.http.HttpRequestInterceptor;
import org.apache.http.HttpResponse;
import org.apache.http.HttpResponseInterceptor;
import org.apache.http.HttpVersion;
import org.apache.http.NoHttpResponseException;
import org.apache.http.auth.AuthScope;
import org.apache.http.auth.UsernamePasswordCredentials;
import org.apache.http.client.ClientProtocolException;
import org.apache.http.client.CredentialsProvider;
import org.apache.http.client.HttpRequestRetryHandler;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.client.methods.HttpPost;
import org.apache.http.client.params.ClientPNames;
import org.apache.http.client.params.CookiePolicy;
import org.apache.http.conn.params.ConnConnectionPNames;
import org.apache.http.conn.params.ConnRoutePNames;
import org.apache.http.entity.HttpEntityWrapper;
import org.apache.http.entity.StringEntity;
import org.apache.http.impl.client.BasicCredentialsProvider;
import org.apache.http.impl.client.DefaultHttpClient;
import org.apache.http.impl.conn.tsccm.ThreadSafeClientConnManager;
import org.apache.http.params.CoreConnectionPNames;
import org.apache.http.params.CoreProtocolPNames;
import org.apache.http.protocol.ExecutionContext;
import org.apache.http.protocol.HttpContext;
import org.apache.http.util.EntityUtils;
import org.apache.log4j.Logger;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.context.annotation.Scope;
import org.springframework.stereotype.Component;

import com.surfilter.collector.bean.CollectorParam;
import com.surfilter.collector.bean.Proxy;

/**
 * 下载的工具类。
 * 考虑到每个插件执行都是串行的,所以对所有下载加了100ms的时间间隔,各插件间不会互相影响。
 * @author bichenggong
 * @version 2.0
 */

@Scope("prototype")
@Component
public class DownloadUtil {
 
 private  DefaultHttpClient httpclient;
 
 @Autowired
 private CollectorParam collectorParam;
 
 private Proxy proxy;
 
 private static final Logger logger = Logger.getLogger(DownloadUtil.class);
 
 private static int CHARSET_BUF_SIZE = 3000;
 
 private static Pattern htmlEncodingPattern = Pattern.compile("charset\\s*=\\s*['\"]?([\\w-]*)");
 private static Pattern xmlEncodingPattern = Pattern.compile("encoding\\s*=\\s*['\"]?([\\w-]*)");
 
 private boolean enableGzip = true;
 
 public DownloadUtil() {
  this(true);
 }
 
 public DownloadUtil(boolean enableGzip) {
  this.enableGzip = enableGzip;
  
  // Create an HttpClient with the ThreadSafeClientConnManager.
        // This connection manager must be used if more than one thread will
        // be using the HttpClient.
        ThreadSafeClientConnManager cm = new ThreadSafeClientConnManager();
        cm.setMaxTotal(40);
       
  httpclient = new DefaultHttpClient(cm);
  
  // set parameters
  httpclient.getParams().setIntParameter(CoreConnectionPNames.SO_TIMEOUT, 20000);
  httpclient.getParams().setIntParameter(CoreConnectionPNames.CONNECTION_TIMEOUT, 20000);
  httpclient.getParams().setIntParameter(CoreConnectionPNames.SO_LINGER, 20);
  httpclient.getParams().setIntParameter(ConnConnectionPNames.MAX_STATUS_LINE_GARBAGE, 0);
  httpclient.getParams().setParameter(CoreProtocolPNames.PROTOCOL_VERSION, HttpVersion.HTTP_1_1);
  httpclient.getParams().setParameter(
    ClientPNames.COOKIE_POLICY, CookiePolicy.BROWSER_COMPATIBILITY);

  if(enableGzip) {
   
   // 发送请求都加上接受gzip
   httpclient.addRequestInterceptor(new HttpRequestInterceptor() {
    
    public void process(
      final HttpRequest request,
      final HttpContext context) throws HttpException, IOException {
     request.setHeader("User-Agent", "Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/13.0.782.220 Safari/535.1");
     request.setHeader("Accept-Encoding", "gzip");
    }
   });
   
   // 遇到gzip返回则进行解码
   httpclient.addResponseInterceptor(new HttpResponseInterceptor() {
    
    public void process(
      final HttpResponse response,
      final HttpContext context) throws HttpException, IOException {
     HttpEntity entity = response.getEntity();
     if(logger.isDebugEnabled()) {
      for(Header h: response.getAllHeaders()) {
          if(logger.isDebugEnabled()){
              logger.debug("header: " + h);
          }
      }
     }
     Header ceheader = entity.getContentEncoding();
     if (ceheader != null) {
      HeaderElement[] codecs = ceheader.getElements();
      int clength = codecs.length;
      for (int i = 0; i < clength; i++) {
       if (codecs[i].getName().equalsIgnoreCase("gzip")) {
        response.setEntity(
          new GzipDecompressingEntity(response.getEntity()));
        return;
       }
      }
     }
    }
    
   });
   
  }
       
        // 设置重试控制器
  HttpRequestRetryHandler myRetryHandler = new HttpRequestRetryHandler() {
   public boolean retryRequest(IOException exception,
     int executionCount, HttpContext context) {
    if (executionCount >= 2) {
     // Do not retry if over max retry count
     return false;
    }
    if (exception instanceof NoHttpResponseException) {
     // Retry if the server dropped connection on us
     return true;
    }
    if (exception instanceof SSLHandshakeException) {
     // Do not retry on SSL handshake exception
     return false;
    }
    HttpRequest request = (HttpRequest) context
      .getAttribute(ExecutionContext.HTTP_REQUEST);
    boolean idempotent = !(request instanceof HttpEntityEnclosingRequest);
    if (idempotent) {
     // Retry if the request is considered idempotent
     return true;
    }
    return false;
   }
  };
  
  httpclient.setHttpRequestRetryHandler(myRetryHandler);
    }
       
    public class GzipDecompressingEntity extends HttpEntityWrapper {

        public GzipDecompressingEntity(final HttpEntity entity) {
            super(entity);
        }

        @Override
        public InputStream getContent()
            throws IOException, IllegalStateException {

            // the wrapped entity's getContent() decides about repeatability
            InputStream wrappedin = wrappedEntity.getContent();

            return new GZIPInputStream(wrappedin);
        }

        @Override
        public long getContentLength() {
            // length of ungzipped content is not known
            return -1;
        }

    }
 
 public void init() {
  try {
   if(proxy != null){
    logger.debug("本任务的代理为:" + proxy.toString());
    HttpHost proxyObj = new HttpHost(proxy.getIp(), proxy.getPort());
    httpclient.getParams().setParameter(ConnRoutePNames.DEFAULT_PROXY, proxyObj);
    if(proxy.isNeedValidate()){
     httpclient.getParams().setBooleanParameter(ClientPNames.HANDLE_AUTHENTICATION, true);
     CredentialsProvider credsProvider = new BasicCredentialsProvider();
     UsernamePasswordCredentials userPass = new UsernamePasswordCredentials(proxy.getUserName(), proxy.getPassword());
     credsProvider.setCredentials(new AuthScope(AuthScope.ANY_HOST, AuthScope.ANY_PORT), userPass); 
     ((DefaultHttpClient) httpclient).setCredentialsProvider(credsProvider);
    }
   }else{
    logger.debug("本任务不使用代理!");
   }
  } catch (Exception e) {
   logger.error("设置代理时出错:", e);
  }       
 }
 
 // httpClient.getConnectionManager().shutdown();
 public void releaseResource(){
  if(httpclient != null) {
   httpclient.getConnectionManager().shutdown();
  }
 }
 
 /**
  * 使用httpget下载页面,用forceEncode对页面解码
  *
  * @param httpget
  * @param forceEncode
  * @return
  */
 public String download(HttpGet httpget, String forceEncode){
  init();
  String html = "";
  
  try{
         HttpResponse response = httpclient.execute(httpget);
 
         HttpEntity entity = response.getEntity();
 
         if (entity != null) {
          String encode = null;
          byte[] bytes = EntityUtils.toByteArray(entity);
          if(StringUtils.isNotBlank(forceEncode)) {
     encode = forceEncode;
    } else {
     if(entity.getContentType() != null) {
      String contentType = entity.getContentType().getValue();
      encode = getPageEncoding(contentType);
     }
     if (StringUtils.isBlank(encode) || encode.equalsIgnoreCase("ISO-8859-1")) {
      String encStr = new String(bytes, 0, bytes.length <= CHARSET_BUF_SIZE ? bytes.length : CHARSET_BUF_SIZE);
      encode = getPageEncoding(encStr);
     }
     if(StringUtils.isBlank(encode)){
      encode = "UTF-8";
     }
    }
    html = new String(bytes, encode);
         }
  } catch(EOFException eof) {
   // httpclient对于有些页面正文没有用gzip,却会得到有gzip的头声明
   // 例如:http://club.kdnet.net/list.asp?boardid=52
   // 这里只对采用了gzip传输的进行此操作,以防止死循环
   if(enableGzip) {
    DownloadUtil noGzipDownloadUtil = new DownloadUtil(false);
    html = noGzipDownloadUtil.download(httpget, forceEncode);
   }
  } catch(Exception e) {
   if(e instanceof java.net.SocketException){
    logger.warn(e, e);
   } else if(e instanceof java.net.SocketTimeoutException){
    logger.warn(e);
   } else {
    logger.error("download fails: " + httpget.getURI(), e);
   }
   html = "";
  } finally {
   httpget.abort();
   httpclient.getConnectionManager().closeIdleConnections(0, TimeUnit.MILLISECONDS);
  }
  
  return html;
 }
 
 /**
  * download the page by the url
  */
 public String download(String url) {
  HttpGet httpGet = new HttpGet(url);
  return download(httpGet, null);
 }
 
 public String download(String url, String forceEncode) {
  HttpGet httpGet = new HttpGet(url);
  return download(httpGet, forceEncode);
 }
 
 /**
  * @param url
  * @param downloadInterval 下载间隔时间
  * @return
  */
 public String download(String url, long downloadInterval){
  try {
   Thread.sleep(downloadInterval >=0 ? downloadInterval :collectorParam.getDownloadInterval());
  } catch (InterruptedException e) {
   e.printStackTrace();
  }
  HttpGet httpGet = new HttpGet(url);
     return download(httpGet, null);
 }
 
 /**
  * @param url
  * @param downloadInterval
  * @param forceEncode
  * @return
  */
 public String download(String url, long downloadInterval, String forceEncode){
  try {
   Thread.sleep(downloadInterval >=0 ? downloadInterval :collectorParam.getDownloadInterval());
  } catch (InterruptedException e) {
   e.printStackTrace();
  }
  HttpGet httpGet = new HttpGet(url);
     return download(httpGet, forceEncode);
 }
 
 /**
  * @param url
  * @return
  */
 public String downloadNotEncode(String url){
  HttpGet httpget = new HttpGet(url);
  return download(httpget, null);
 }
 
 /**
  * @param url
  * @param downloadInterval
  * @return
  */
 public String downloadNotEncode(String url, long downloadInterval){
  try {
   Thread.sleep(downloadInterval >=0 ? downloadInterval :collectorParam.getDownloadInterval());
  } catch (InterruptedException e) {
   e.printStackTrace();
  }
  HttpGet httpget = new HttpGet(url);
  return download(httpget, null);
 }
 
 /**
  * @param url
  * @param downloadInterval
  * @param cookie
  * @return
  */
 public String downloadNotEncode(String url, long downloadInterval, String cookie){
  try {
   Thread.sleep(downloadInterval >=0 ? downloadInterval :collectorParam.getDownloadInterval());
  } catch (InterruptedException e) {
   e.printStackTrace();
  }
  HttpGet httpget = new HttpGet(url);
  if( StringUtils.isNotBlank(cookie)) {
   httpget.setHeader("Cookie", cookie);
  }  
  return download(httpget, null);
 }
 
 public String downloadByPost(String url, String parameter) {
  return downloadByPost(url, parameter, null);
 }
 
 /**
  * 通过post方式下载页面
  * @param url
  * @param parameter 已经经过编码的发送到目的地的参数
  * @return
  */
 public String downloadByPost(String url, String parameter, String cookie) {
  String html = "";  
  try {
   Thread.sleep(collectorParam.getDownloadInterval());
   HttpPost httpPost = new HttpPost(url);
   if( StringUtils.isNotBlank(cookie)) {
    httpPost.setHeader("Cookie", cookie);
   }
   StringEntity stringEntity = new StringEntity(parameter);
   stringEntity.setContentType("application/x-www-form-urlencoded");
   httpPost.setEntity(stringEntity);
   HttpResponse httpResponse = httpclient.execute(httpPost);
   HttpEntity entity = httpResponse.getEntity();
   
         if (entity != null) {
          String encode = null;
          byte[] bytes = EntityUtils.toByteArray(entity);
          if(entity.getContentType() != null) {
     String contentType = entity.getContentType().getValue();
     encode = getPageEncoding(contentType);
    }
    if (StringUtils.isBlank(encode) || encode.equalsIgnoreCase("ISO-8859-1")) {
     String encStr = new String(bytes, 0, bytes.length <= CHARSET_BUF_SIZE ? bytes.length : CHARSET_BUF_SIZE);
     encode = getPageEncoding(encStr);
    }
    if(StringUtils.isBlank(encode)){
     encode = "UTF-8";
    }
    html = new String(bytes, encode);
         }
  } catch (InterruptedException e) {
   e.printStackTrace();
  } catch (UnsupportedEncodingException e) {
   e.printStackTrace();
  } catch (ClientProtocolException e) {
   e.printStackTrace();
  } catch (IOException e) {
   e.printStackTrace();
  }
  return html;
 }
 
 /**
  * get the encoding of the page
  *
  * @param content
  * @return
  */
 public static String getPageEncoding(String content) {
  content = content.toLowerCase();
  // 针对网页进行解析
  String encoding = "";
  Matcher htmlMatcher = htmlEncodingPattern.matcher(content);
  if (htmlMatcher.find()) {
   encoding = htmlMatcher.group(1);
   if (encoding.startsWith("gb")) {
    return "gbk";
   } else if (encoding.equals("utf-8")) {
    return "utf8";
   } else if(encoding.equals("big5")){
    return "big5";
   } else if(encoding.equals("euc-kr")) {
    return "euc-kr";   
   } else if (encoding.equals("iso-8859-1")) {
    return "iso-8859-1";
   }
  }
  // 针对xml文件进行解析
  Matcher xmlMatcher = xmlEncodingPattern.matcher(content);
  if (xmlMatcher.find()) {
   encoding = xmlMatcher.group(1);
   if (encoding.equals("utf-8")) {
    return "utf8";
   } else if (encoding.equals("gb2312")) {
    return "gb2312";
   } else if(encoding.equals("gbk")) {
    return "gbk";
   }
  }
  // default
  return "";
 }

 /**
  * @param proxy the proxy to set
  */
 public void setProxy(Proxy proxy) {
  this.proxy = proxy;
 }

 public static void main(String[] args) throws Exception {
  String html = new DownloadUtil().download(
    "http://news.oeeee.com/a/20111111/1027181.html",
    null);
  System.out.println(html);
 }
}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值