Java爬虫:解决无法抓取Ajax/JSP动态渲染页面问题

问题: 常见用HttpClent和Jsoup是无法抓取动态渲染页面的, 以下方法表示模拟出一个浏览器, 解析动态渲染页面.

1.Maven依赖

        <!--jsoup 是一款 Java 的HTML 解析器-->
        <dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.11.3</version>
        </dependency>
        <!--模拟一个无头浏览器-->
        <dependency>
            <groupId>net.sourceforge.htmlunit</groupId>
            <artifactId>htmlunit</artifactId>
            <version>2.23</version>
        </dependency>

2.抓取Ajxa/JSP动态渲染页面

import com.gargoylesoftware.htmlunit.BrowserVersion;
import com.gargoylesoftware.htmlunit.NicelyResynchronizingAjaxController;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlPage;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

/**
 * @className: CrawlController
 * @description: 爬虫抓取Web
 * @date: 2021/9/22
 **/
public class CrawlController {
    /**
     * 设置一个无头浏览器,抓取动态渲染页面
     * @param requestUrl 要解析页面URL地址
     * @return 返回Document对象
     */
    public Document accordingToURLGetBrowserHtml(String requestUrl) {
        System.out.println("正在加载页面: " + requestUrl);
        WebClient webClient = new WebClient(BrowserVersion.CHROME);//新建一个模拟谷歌Chrome浏览器的浏览器客户端对象
        webClient.getOptions().setJavaScriptEnabled(true); //很重要,启用JS
        webClient.getOptions().setCssEnabled(false);//是否启用CSS, 因为不需要展现页面, 所以不需要启用
        webClient.getOptions().setThrowExceptionOnScriptError(false);//当JS执行出错的时候是否抛出异常, 这里选择不需要
        webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);//当HTTP的状态非200时是否抛出异常, 这里选择不需要
        webClient.getOptions().setActiveXNative(false);//本地ActiveX
        webClient.getOptions().setTimeout(3 * 1000);//设置连接超时时间

        HtmlPage page = null;
        String pageXml = "";
        try {
            page = webClient.getPage(requestUrl);//加载异步ajax网页
            webClient.waitForBackgroundJavaScript(3 * 1000);//异步JS执行需要耗时,所以这里线程要阻塞多少秒,看情况决定,等待异步JS执行结束
            webClient.setAjaxController(new NicelyResynchronizingAjaxController());//很重要,设置支持AJAX
            pageXml = page.asXml();//直接将加载完成的页面转换成xml格式的字符串

        } catch (Exception e) {
            e.printStackTrace();
        } finally {
            webClient.close();
        }
        Document document = Jsoup.parse(pageXml);//Jsoup获取document对象
        return document;
    }

获取到Document对象用Jsoup就很简单的解析了操作了.

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值