httpclient

         昨天在写完java下载的文章后就在今天发现了一个问题。通过这个问题也反应出对HttpURLConnection这个类还不了解。趁此机会再添加一些对这个类的了解吧。首先看看前面那断代码在我的程序中出现了什么问题:

         在我的程序中有这么一个模块,通过给定的url下载到文件,保存到本地。而文件是binary形式的。例如:http://abc/li.exe,

          用下面代码会出现一个问题,就是当这个url被重定向到一个网页时,下载下来的就是网页的内容:

public static  File saveToFiles(String destUrl,String path) throws IOException {
            final int BUFFER_SIZE = 4096;
            System.out.println("file download url is "+destUrl+" path is"+path+"--------------");
            FileOutputStream fos = null;
            BufferedInputStream bis = null;
            HttpURLConnection httpconn = null;
            URL url = null;
            byte[] buf = new byte[BUFFER_SIZE];
            int size = 0;
            if(rc.isUseProxy()){   // 此处为读取配置文件的内容,确定是否使用代理
                Properties   prop   =   System.getProperties();  
                   //set http  proxy addr
                 prop.setProperty("http.proxyHost",   rc.getHttpProxyHost());      //设置代理的Ip
                  // set http  proxy port
                 prop.setProperty("http.proxyPort",   rc.getHttpProxyPort()+"");   //设置代理的端口
            }    
            File storeFile = new File(path,System.currentTimeMillis()+".tmp");
            System.out.println("file download url is "+destUrl+"path is "+path+"---------------");

            // connection
            url = new URL(destUrl);
            httpconn = (HttpURLConnection) url.openConnection();
            httpconn.setRequestProperty("Host", "analigesto.com");
            httpconn.setRequestProperty("User-Agent", "Mozilla/5.0 (X11; U; Linux i686; zh-CN; rv:1.9.0.18) Gecko/2010021501 Ubuntu/9.04 (jaunty) Firefox/3.0.18");
            httpconn.setRequestProperty("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8"); 
            httpconn.setRequestProperty("Accept-Language", "zh-cn,zh;q=0.5");
            httpconn.setRequestProperty("Accept-Encoding", "gzip,deflate");
            httpconn.setRequestProperty("Accept-Charset", "gb2312,utf-8;q=0.7,*;q=0.7");
            httpconn.setRequestProperty("Keep-Alive", "300");
            httpconn.setRequestProperty("Connection", "Keep-Alive");
            //httpconn.setRequestProperty("Referer", url);    
            httpconn.setRequestProperty("Cookie", "PHPSESSID=1d888d20bba26e676811ebf7f0cd109b");
            try{
                httpconn.setReadTimeout(40000); // 设置读取文件超时时间
                httpconn.connect();
                int statuscode = httpconn.getResponseCode(); // 建立链接后先查询url的状态码
                if(statuscode == 200){ //链接正常。并得到了返回信息
                    bis = new BufferedInputStream(httpconn.getInputStream()); // 建立管道,准备读取数据流
                    fos = new FileOutputStream(storeFile);
                    System.out.println("it is to receive link[" + destUrl + "]content/n be save file is:[" + storeFile
                            + "]");
                    
                    while ((size = bis.read(buf)) != -1){ // 保存文件到本地磁盘
                        fos.write(buf, 0, size);
                    }
                    System.out.println("file download url is "+destUrl+"  path is"+path+"  "+new Date());
                    fos.close();
                    bis.close();
                    httpconn.disconnect();
                    System.out.println("saveToFiles file is "+storeFile.getName()+" size is "+storeFile.length());
                }else{
                    return null;
                }
            }catch(Exception e){
                System.out.println(destUrl+" this url connection timeout ");
                System.out.println(e.toString());
                return null;
            }
            return storeFile;
        }

     为了防止下载文件出现这种问题,我们需要在httpconn.connect();完成连接后判断连接到的文件的属性。在此加上一句话

    String type = httpconn.getContentType();
                    if(statuscode == 200 && type.contains("application/")){

                           //此处与上面相同。

                     }

   这样下载下来的文件就是应用程序而非网页了。当有一个binary文件url被重定向后就可以避免把网页文件当成自己想要下载的内容去下载了----

http://www.xd-tech.com.cn/blog/article.asp?id=34一般的情况下我们都是使用IE或者Navigator浏览器来访问一个WEB服务器,用来浏览页面查看信息或者提交一些数据等等。所访问的这些页面有的仅仅是一些普通的页面,有的需要用户登录后方可使用,或者需要认证以及是一些通过加密方式传输,例如HTTPS。目前我们使用的浏览器处理这些情况都不会构成问题。不过你可能在某些时候需要通过程序来访问这样的一些页面,比如从别人的网页中“偷”一些数据;利用某些站点提供的页面来完成某种功能,例如说我们想知道某个手机号码的归属地而我们自己又没有这样的数据,因此只好借助其他公司已有的网站来完成这个功能,这个时候我们需要向网页提交手机号码并从返回的页面中解析出我们想要的数据来。如果对方仅仅是一个很简单的页面,那我们的程序会很简单,本文也就没有必要大张旗鼓的在这里浪费口舌。但是考虑到一些服务授权的问题,很多公司提供的页面往往并不是可以通过一个简单的URL就可以访问的,而必须经过注册然后登录后方可使用提供服务的页面,这个时候就涉及到COOKIE问题的处理。我们知道目前流行的***页技术例如ASP、JSP无不是通过COOKIE来处理会话信息的。为了使我们的程序能使用别人所提供的服务页面,就要求程序首先登录后再访问服务页面,这过程就需要自行处理cookie,想想当你用java.net.HttpURLConnection来完成这些功能时是多么恐怖的事情啊!况且这仅仅是我们所说的顽固的WEB服务器中的一个很常见的“顽固”!再有如通过HTTP来上传文件呢?不需要头疼,这些问题有了“它”就很容易解决了! 我们不可能列举所有可能的顽固,我们会针对几种最常见的问题进行处理。当然了,正如前面说到的,如果我们自己使用java.net.HttpURLConnection来搞定这些问题是很恐怖的事情,因此在开始之前我们先要介绍一下一个开放源码的项目,这个项目就是Apache开源组织中的httpclient,它隶属于Jakarta的commons项目,目前的版本是2.0RC2。commons下本来已经有一个net的子项目,但是又把httpclient单独提出来,可见http服务器的访问绝非易事。Commons-httpclient项目就是专门设计来简化HTTP客户端与服务器进行各种通讯编程。通过它可以让原来很头疼的事情现在轻松的解决,例如你不再管是HTTP或者HTTPS的通讯方式,告诉它你想使用HTTPS方式,剩下的事情交给httpclient替你完成。本文会针对我们在编写HTTP客户端程序时经常碰到的几个问题进行分别介绍如何使用httpclient来解决它们,为了让读者更快的熟悉这个项目我们最开始先给出一个简单的例子来读取一个网页的内容,然后循序渐进解决掉前进中的所形侍狻?/font>
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值