URLConnection的编码问题

前一阵抓网页遇到编码问题,于是写了个方法在每次抓取之前确认一下网页的编码,代码如下:

private static String getEncode(String strUrl){
String encode = HttpClient.encode;
InputStream in = null;
HttpURLConnection con = null;
try{
log.debug("检查url编码:" + strUrl);
URL url = new URL(strUrl);
con = (HttpURLConnection)url.openConnection();
// String[] s = strurl.split("/");
System.out.printf("编码:%s \n" ,con.getContentEncoding());
if(con.getContentEncoding()!=null){
return con.getContentEncoding();
}
in = con.getInputStream();
con.setConnectTimeout(5*1000);
con.setReadTimeout(10*1000);


BufferedReader read = new BufferedReader(new InputStreamReader(in));
String inStr = null;

String reg = "meta http-equiv=\"Content-Type\" content=\".*?charset=(.*?)\"";
Pattern p = Pattern.compile(reg);

while ((inStr = read.readLine()) != null) {
Matcher m = p.matcher(inStr);
if(m.find()){
encode = m.group(1);
log.debug("code:" + encode);
break;
}
}

}catch(Exception e){
log.error(e.getMessage(),e);
}finally{
try {
in.close();
con.disconnect();
} catch (Exception e) {
}
}
return encode;
}
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值