Jsoup + HtmlUtil 实现网易新闻网页爬虫

最新推荐文章于 2024-06-28 15:36:45 发布

Liam_Fang_

最新推荐文章于 2024-06-28 15:36:45 发布

阅读量2.7k

点赞数 3

分类专栏： Jsoup 文章标签： Jsoup

本文链接：https://blog.csdn.net/weixin_39912556/article/details/86481402

版权

1.这里先说明为什么要用HtmlUtil，仅用Jsoup不行吗？

如果用Jsoup的方法，那么爬取网页的代码如下，这也是比较简单的形式了。

Document docu1=Jsoup.connect(url).get();

用上述代码只能爬取静态网页的，当遇到动态网页就会发现你想要的内容爬取不出来。因此我用到了HtmlUtil。

具体代码如下:这里面的方法getHtmlFromUrl(String url)返回一个文档对象，然后可以通过Jsoup的一系列方法获得想要的内容。

具体的解释看这篇文章

import org.jsoup.nodes.Document;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlPage;
import org.jsoup.Jsoup;
public class HtmlUnitUtil {
	public static Document getHtmlFromUrl(String url) throws Exception{
		WebClient webClient = new WebClient();
        webClient.getOptions().setJavaScriptEnabled(true);
        webClient.getOptions().setCssEnabled(