Java爬虫，调用Chrome、Firefox获取页面信息使用Jsoup解析，以及Jsoup爬取简单页面

最新推荐文章于 2024-08-12 19:04:12 发布

MC丶天天

最新推荐文章于 2024-08-12 19:04:12 发布

阅读量2.6k

点赞数 2

文章标签： java selenium chrome firefox

本文链接：https://blog.csdn.net/weixin_43025522/article/details/119170882

版权

本文介绍了如何在Java中利用Chrome和Firefox的无头模式进行网页抓取，以应对网站的反爬机制。详细讲解了配置ChromeDriver和geckodriver的过程，并提供了相关依赖。同时，还分享了如何使用Jsoup解析抓取到的简单页面，以及提供了JS选择器的学习资源链接。

摘要由CSDN通过智能技术生成

Java爬虫，调用Chrome、Firefox获取页面信息，以及Jsoup解析

**
前言：
有一些网站有反爬机制，这样的情况下我们需要使用模拟真实的浏览器去访问页面，在linux环境下，需要设置浏览器无头模式。但是有一些网站反爬做的比较好，会判断谷歌浏览器的无头模式，因此可以换火狐浏览器试试。

一、java 调用Chrome(谷歌浏览器)爬取页面
1.本地装有谷歌浏览器和ChromeDriver
chromedriver地址：http://npm.taobao.org/mirrors/chromedriver/
注意：chromedriver版本要和谷歌浏览器版本一样
2.chromedriver需要配置环境变量，如果不配置环境变量，需要调用

需要的依赖：

 	<!--jsoup-->
        <dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.11.3</version>
        </dependency>
       
      <dependency>
            <groupId>org.seleniumhq.selenium</groupId>
            <artifactId>selenium-java</artifactId>
        </dependency>