关于下载网页源码再来解析,这是一套简单的java爬虫
这里简单说说网页的下载。
其实用很多方法,比较好用的有httpclient。但是原理都是从URLConnection这里衍生来的。所以这先讲讲URLConnection下载网页源码的方式。
这个下载其实方法不难,难的是如何寻找到合适的编码。如果编码不对的话,中文容易造成乱码的情况。那么,有什么方法?
方法一:
从http返回的响应头获取。在使用urlconnection链接后,会有一个响应头返回如连接 :https://www.w3school.com.cn/,这里的响应头没有给出编码集,
方法二:
第二种方法是从网页的源码中获取,毕竟编码不同的话不会影响英文显示的。
如: