JAVA使用cdp4j爬取动态渲染网页的数据

最新推荐文章于 2024-08-10 07:50:36 发布

龙先华

最新推荐文章于 2024-08-10 07:50:36 发布

阅读量5.1k

点赞数 4

分类专栏：爬虫文章标签： JAVA 爬虫 cdp4j 动态渲染技术分享

本文链接：https://blog.csdn.net/weixin_43085439/article/details/83994673

版权

本文档记录了使用JAVA的cdp4j库爬取动态渲染网页的方法，通过直接调用Chrome浏览器获取渲染后的HTML，再用jsoup解析所需内容。介绍了遇到的挑战，如找不到Chrome浏览器的路径，并展示了成功爬取的彩票期号和号码。仅供学习参考，实战价值有限。

摘要由CSDN通过智能技术生成

说明

此文章是主要是为了记录自己的学习日志以及解决过的问题.
在一般情况下可以解决动态渲染的网站用jsoup无法爬取的问题,使用的cdp4j,发现这类文档比较少.
做的时候参考的: 殷天文
的Java爬虫入门篇

本人也是小白,借鉴了很多大牛的文章,也主要是写给自己记录,仅供参考,如有错误请指正.

使用 cdp4j直接调用本地的chrome浏览器,得到渲染后的html页面.
然后再使用jsoup解析获得我们需要的文档.

<!-- cdp4j依赖  -->
<dependency>
    <groupId>io.webfolder</groupId>
    <artifactId>cdp4j</artifactId>
    <version>2.2.1</version>
</dependency>

import java.util.ArrayList;

import org.jsoup.Jsoup;

import io.webfolder.cdp.Launcher;
import io.webfolder.cdp.session.Session;

关注

专栏目录