通过goole得知,要获取网页内容,可使用HttpURLConnection类来获取网页代码,进而使用String的字符串过滤即可获得所需的网页信息。
然而在整个小java程序都写得差不多时,在测试的时候,发现获取到的网页代码是乱码:
google之,才了解到,原来网页是经过了gzip的压缩,这样直接通过
InputStream is = con.getInputStream();
StringBuffer stringBuffer = new StringBuffer();
Reader reader = new InputStreamReader(is,st);
来读,肯定是乱码,因为没用gzip来读取数据。这样,只需使用:
GZIPInputStream gzin = new GZIPInputStream(is);
来读取数据流即可。