自己动手写搜索引擎之java爬虫

最新推荐文章于 2024-10-01 18:51:18 发布

chufanwmmmz5723

最新推荐文章于 2024-10-01 18:51:18 发布

阅读量84

点赞数

文章标签： java 爬虫

原文链接：https://my.oschina.net/u/3090863/blog/796320

版权

网上看过很多方案，都无法实际解决好乱码问题，而我综合综合那些答案，自己也折腾出了一套方案，它确实帮助我解决了爬取gzip网页的难题。 [code lang="java"] InputStream is = getMethod.getResponseBodyAsStream(); //获取响应输入流 GZIPInputStream gzin = new GZIPInputStream(is); //转换为gzip输入流 InputStreamReader isr = new InputStreamReader(gzin, "utf-8"); // 设置读取流的编码格式，自定义编码 BufferedReader br = new BufferedReader(isr); StringBuffer sb = new StringBuffer(); String tempbf; while ((tempbf = br.readLine()) != null) { sb.append(tempbf); sb.append("\r\n"); } isr.close(); gzin.close(); [/code]

转载于:https://my.oschina.net/u/3090863/blog/796320