selenium+Webdriver+jsoup爬虫 java

参考:https://blog.csdn.net/ymxkybqw/article/details/85271026

我们为什么要借助webdriver来爬虫呢?其实jsoup也可以直接进行爬虫的,直接这样爬,容易被拦截,你可能没有携带一些特定的请求头之类的,爬虫成本较高,我们用webdriver就可以实现真实浏览器的访问,会自己携带请求参数过去,省去了很多去分析的时间。

原理:

我们在浏览器中为什么可以看到页面上的数据,是因为服务器给了数据给浏览器,让他去渲染,我们将这部分数据拿到,然后再打开浏览器,可以真实的模拟数据。

查看当前google版本[其他浏览器也可以]

在google浏览器输入:chrome://settings/help
在这里插入图片描述
下载 chromedriver.exe

下载地址:http://npm.taobao.org/mirrors/chromedriver或者http://chromedriver.storage.googleapis.com/index.html,因为我的google版本是80,所以我选择这个
在这里插入图片描述
notes.txt:这里写了这个驱动支持哪些版本的浏览器
在这里插入图片描述
在这里插入图片描述
下载对应系统的驱动版本
在这里插入图片描述

这个文件的路径可以随意放置

依赖

 <!--WebDriver-->
        <dependency>
            <groupId>org.seleniumhq.selenium</groupId>
            <artifactId>selenium-java</artifactId>
            <version>4.0.0-alpha-3</version>
        </dependency>
        <!-- jsoup-->
        <dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.11.3</version>
        </dependency>

测试代码

ChromeOptions options = new ChromeOptions();
        options.setBinary("D:/谷歌浏览器/Google/Chrome/Application/chrome.exe");
        //通过配置参数禁止data;的出现,不会弹出浏览器,默认是后台静默运行
        options.addArguments("--headless","--disable-gpu");
        //注意 第二个参数 改为你第二步下载 chromedriver.exe 所放在的路径
        System.setProperty("webdriver.chrome.driver", "D:/chromedriver/chromedriver.exe");
        //创建浏览器窗口
        WebDriver driver = new ChromeDriver(options);

        driver.get("https://www.baidu.com");
        //延迟5秒,动态网站数据填充比较慢,需要延迟才可以拿到数据
        Thread.sleep(5000);
        //拿到页面的数据
        String html=driver.getPageSource();
        System.out.println("The testing page title is: " + driver.getTitle());
        //将字符串变成document对象来获取某个节点的数据
        Document document= Jsoup.parse(html);
       	System.out.println(document);
        //关闭浏览器窗口
        driver.quit();
  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

java后端指南

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值