httpclient自动获取页面编码,解决网页抓取乱码问题

httpclient自动获取页面编码设置进行字符编码,使httpclient适用所有网页抓取不乱码 
 
      
        /** 
         * 获取页面html内容 
         * @param method 
         * @param methodType 
         * @return String 
         * @throws UnsupportedEncodingException 
         * @throws IOException 
         */  
        private static String readInputStream(HttpMethod method) throws Exception{  
            String charset = "UTF-8";  
            if(method instanceof PostMethod){  
                charset = ((PostMethod)method).getResponseCharSet();  
            }else{  
                charset = ((GetMethod)method).getResponseCharSet();  
            }  
            byte[] bytes = method.getResponseBody();  
            String body = new String(bytes,"UTF-8");  
            charset = getCharSetByBody(body,charset);  
            return new String(bytes,charset);  
        }  
          
        /** 
         * 根据页面body获取字符编码 
         * @param html 
         * @param charset 
         * @return 
         */  
        private static String getCharSetByBody(String html,String charset){  
            Document document = parseJSoupDocumentFromHtml(html, Constants.parseBaseUri);  
            Elements elements = document.select("meta");  
            for(Element metaElement : elements){  
                if(metaElement!=null && StringUtils.isNotBlank(metaElement.attr("http-equiv")) && metaElement.attr("http-equiv").toLowerCase().equals("content-type")){  
                    String content = metaElement.attr("content");  
                    charset = getCharSet(content);  
                    break;  
                }  
            }  
            return charset;  
        }  
          
        /** 
         * 正则获取字符编码 
         * @param content 
         * @return 
         */  
        private static String getCharSet(String content){  
            String regex = ".*charset=([^;]*).*";  
            Pattern pattern = Pattern.compile(regex);  
            Matcher matcher = pattern.matcher(content);  
            if(matcher.find())  
                return matcher.group(1);  
            else  
                return null;  
        }  

链接: http://blog.csdn.net/yangbobo1992/article/details/8560512
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值