Jsoup配合使用htmlunit爬取动态页面

最新推荐文章于 2024-08-12 20:21:42 发布

木羽丶

最新推荐文章于 2024-08-12 20:21:42 发布

阅读量2.4k

点赞数 5

分类专栏：爬虫文章标签： java

本文链接：https://blog.csdn.net/qq_41615959/article/details/113119039

版权

爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

今天使用jsoup在做爬虫的功能的时候，发现jsoup只能爬取静态页面，对于ajax和json动态生成的页面的支持并不友好。

于是我尝试直接用请求发送param和数据头，希望能直接返回json数据，但可能是由于网站接口不支持没能成功。

在尝试其他方法之后，从网上发现可以使用htmlunit模拟浏览器，生成动态的网页之后，再用jsoup对生成的动态网页进行解析

以下是pom.xml maven依赖代码

    <dependencies>
        <!--jsoup-->
        <dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.11.3</version>
        </dependency>
 
        <!--htmlunit-->
        <dependency>
            <groupId>net.sourceforge.htmlunit</groupId>
            <artifactId>htmlunit</artifactId>
            <version>2.33</version>
        </dependency>
    </dependencies>

下面是java代码

import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlPage;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;

import java.io.IOException;

public class JsoupTest {
	public static void main(String[] args) {
		queryDocument("北斗");
	}
	public static void queryDocument(String documentName){
		WebClient browser = new WebClient();
		browser.getOptions().setCssEnabled(false);
		browser.getOptions().setJavaScriptEnabled(true);
		browser.getOptions().setThrowExceptionOnScriptError(false);
		String url = "http://oar.nstl.gov.cn/Paper/Search?searchKey="+documentName+"&x=0&y=0";
		try {
			HtmlPage htmlPage = browser.getPage(url);
			browser.waitForBackgroundJavaScript(3000);
			Document document = Jsoup.parse(htmlPage.asXml());
			Element paper = document.getElementById("paper");
			System.out.println(paper);
		} catch (IOException e) {
			e.printStackTrace();
		}
	}
}