在Java中使用selenium和jsoup爬取需要登陆的动态网页

        最近因为需要爬取一个动态网页的一些数据,走了一些弯路,第一次发帖记录一下最后成功的经历。

        我这里需要登陆的网页只需要账号和密码就能登陆,需要验证码的没有涉及。

        首先jsoup只能用于爬取静态网页的数据,动态网页的话获取不到一些信息。因此利用selenium模拟登陆网站,将获得的源码再用jsoup解析即可。

        这是配置文件:

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>org.example</groupId>
    <artifactId>test02</artifactId>
    <version>1.0-SNAPSHOT</version>


    <properties>

        <maven.compiler.source>8</maven.compiler.source>
        <maven.compiler.target>8</maven.compiler.target>
        <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>

    </properties>

    <dependencies>

        <dependency>
            <groupId>org.seleniumhq.selenium</groupId>
            <artifactId>selenium-java</artifactId>
            <version>3.141.59</version>
        </dependency>

            <!--jsoup-->
            <dependency>
                <groupId>org.jsoup</groupId>
                <artifactId>jsoup</artifactId>
                <version>1.11.3</version>
            </dependency>


    </dependencies>



</project>


这个是代码:

package org.example;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
import org.openqa.selenium.By;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.chrome.ChromeDriver;
import org.openqa.selenium.support.ui.ExpectedConditions;
import org.openqa.selenium.support.ui.WebDriverWait;
import org.jsoup.nodes.Element;
public class Test01 {
    public static void main(String[] args) throws InterruptedException {
        // 设置 ChromeDriver 路径
        System.setProperty("webdriver.chrome.driver", "D:\\java\\pathofllq\\win32\\chromedriver.exe");

        // 实例化 ChromeDriver
        WebDriver driver = new ChromeDriver();

        // 打开登录页面
        driver.get("你的网址");

        // 等待页面加载,找到并填写登录表单
        WebDriverWait wait = new WebDriverWait(driver, 10);
        wait.until(ExpectedConditions.presenceOfElementLocated(By.className("loginPro-box")));

        // 找到并填写用户名和密码
        driver.findElement(By.id("val_loginAccount")).sendKeys("账号");
        driver.findElement(By.id("val_loginPwd")).sendKeys("密码");

        // 提交登录表单
        driver.findElement(By.className("loginBtn")).click();

        // 等待登录完成
        wait.until(ExpectedConditions.presenceOfElementLocated(By.className("add-hover")));
        Thread.sleep(3000);
        // 获取登录后的页面源码
        String dynamicPageSource = driver.getPageSource();

        // 使用 Jsoup 解析动态生成的页面源码
        Document doc = Jsoup.parse(dynamicPageSource);

        // 在这里可以使用 Jsoup 提取您需要的信息
        // 例如:Elements elements = doc.select("your_selector");
        Elements elements = doc.select(".panelPage .totalPan.many .val");
        int count = 1;
        for (Element item : elements) {
                System.out.println(item.text() );
        }
        // 关闭浏览器
        driver.quit();
    }
}

有几个注意事项,一是这里chromedriver需要和自己chrome浏览器的版本一致,

二是代码里登陆表单和用户名密码等需要自己在登陆页面上获得,通过查看源码获取相对应的名字(名称可能不一样)。

如何就可以根据源码分析数据了
       

  • 4
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值