Java爬虫系列四：使用selenium-java爬取js异步请求的数据

最新推荐文章于 2024-06-28 14:26:11 发布

JAVA开发老菜鸟

最新推荐文章于 2024-06-28 14:26:11 发布

阅读量2.3k

点赞数

分类专栏： Java爬虫文章标签： java selenium 爬虫

本文链接：https://blog.csdn.net/ITcainiao25/article/details/120819347

版权

本文介绍如何在Java爬虫中处理异步加载的数据，特别是针对股票价格等实时信息。通过Selenium模拟浏览器内核，抓取JavaScript渲染后的页面内容，确保获取到正确数据。文章还提到了反向解析法作为另一种可能的解决方案，但主要讲解了Selenium的使用，包括添加依赖、配置浏览器驱动以及代码实现。最后，作者分享了一个使用这些技术实现的持仓市值通知系统。

摘要由CSDN通过智能技术生成

在之前的系列文章中介绍了如何使用httpclient抓取页面html以及如何用jsoup分析html源文件内容得到我们想要的数据，但是有时候通过这两种方式不能正常抓取到我们想要的数据，比如看如下例子。

1.需求场景：

想要抓取股票的最新价格，页面F12信息如下：
按照前面的方式，爬取的代码如下：

/**
 * @description: 爬取股票的最新股价
 * @author: JAVA开发老菜鸟
 * @date: 2021-10-16 21:47
 */
public class StockPriceSpider {

    Logger logger = LoggerFactory.getLogger(this.getClass());

    public static void main(String[] args) {

        StockPriceSpider stockPriceSpider = new StockPriceSpider();
        String html = stockPriceSpider.httpClientProcess();
        stockPriceSpider.jsoupProcess(html);
    }

    private String httpClientProcess() {
        String html = "";
        String uri = "http://quote.eastmoney.com/sh600036.html";
        //1.生成httpclient，相当于该打开一个浏览器
        CloseableHttpClient httpClient = HttpClients.createDefault();
        CloseableHttpResponse response = null;
        //2.创建get请求，相当于在浏览器地址栏输入 网址
        HttpGet request = new H