1.这里先说明为什么要用HtmlUtil,仅用Jsoup不行吗?
如果用Jsoup的方法,那么爬取网页的代码如下,这也是比较简单的形式了。
Document docu1=Jsoup.connect(url).get();
用上述代码只能爬取静态网页的,当遇到动态网页就会发现你想要的内容爬取不出来。因此我用到了HtmlUtil。
具体代码如下:这里面的方法getHtmlFromUrl(String url)返回一个文档对象,然后可以通过Jsoup的一系列方法获得想要的内容。
具体的解释看这篇文章
import org.jsoup.nodes.Document;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlPage;
import org.jsoup.Jsoup;
public class HtmlUnitUtil {
public static Document getHtmlFromUrl(String url) throws Exception{
WebClient webClient = new WebClient();
webClient.getOptions().setJavaScriptEnabled(true);
webClient.getOptions().setCssEnabled(