说明
此文章是主要是为了记录自己的学习日志以及解决过的问题.
在一般情况下可以解决动态渲染的网站用jsoup无法爬取的问题,使用的cdp4j,发现这类文档比较少.
做的时候参考的: 殷天文
的Java爬虫入门篇
本人也是小白,借鉴了很多大牛的文章,也主要是写给自己记录,仅供参考,如有错误请指正.
思路
使用 cdp4j直接调用本地的chrome浏览器,得到渲染后的html页面.
然后再使用jsoup解析获得我们需要的文档.
maven依赖
<!-- cdp4j依赖 -->
<dependency>
<groupId>io.webfolder</groupId>
<artifactId>cdp4j</artifactId>
<version>2.2.1</version>
</dependency>
官方文档
链接: webfolderio/cdp4j Github
.
代码
import java.util.ArrayList;
import org.jsoup.Jsoup;
import io.webfolder.cdp.Launcher;
import io.webfolder.cdp.session.Session;