最近因为需要爬取一个动态网页的一些数据,走了一些弯路,第一次发帖记录一下最后成功的经历。
我这里需要登陆的网页只需要账号和密码就能登陆,需要验证码的没有涉及。
首先jsoup只能用于爬取静态网页的数据,动态网页的话获取不到一些信息。因此利用selenium模拟登陆网站,将获得的源码再用jsoup解析即可。
这是配置文件:
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>org.example</groupId>
<artifactId>test02</artifactId>
<version>1.0-SNAPSHOT</version>
<properties>
<maven.compiler.source>8</maven.compiler.source>
<maven.compiler.target>8</maven.compiler.target>
<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
</properties>
<dependencies>
<dependency>
<groupId>org.seleniumhq.selenium</groupId>
<artifactId>selenium-java</artifactId>
<version>3.141.59</version>
</dependency>
<!--jsoup-->
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.11.3</version>
</dependency>
</dependencies>
</project>
这个是代码:
package org.example;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
import org.openqa.selenium.By;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.chrome.ChromeDriver;
import org.openqa.selenium.support.ui.ExpectedConditions;
import org.openqa.selenium.support.ui.WebDriverWait;
import org.jsoup.nodes.Element;
public class Test01 {
public static void main(String[] args) throws InterruptedException {
// 设置 ChromeDriver 路径
System.setProperty("webdriver.chrome.driver", "D:\\java\\pathofllq\\win32\\chromedriver.exe");
// 实例化 ChromeDriver
WebDriver driver = new ChromeDriver();
// 打开登录页面
driver.get("你的网址");
// 等待页面加载,找到并填写登录表单
WebDriverWait wait = new WebDriverWait(driver, 10);
wait.until(ExpectedConditions.presenceOfElementLocated(By.className("loginPro-box")));
// 找到并填写用户名和密码
driver.findElement(By.id("val_loginAccount")).sendKeys("账号");
driver.findElement(By.id("val_loginPwd")).sendKeys("密码");
// 提交登录表单
driver.findElement(By.className("loginBtn")).click();
// 等待登录完成
wait.until(ExpectedConditions.presenceOfElementLocated(By.className("add-hover")));
Thread.sleep(3000);
// 获取登录后的页面源码
String dynamicPageSource = driver.getPageSource();
// 使用 Jsoup 解析动态生成的页面源码
Document doc = Jsoup.parse(dynamicPageSource);
// 在这里可以使用 Jsoup 提取您需要的信息
// 例如:Elements elements = doc.select("your_selector");
Elements elements = doc.select(".panelPage .totalPan.many .val");
int count = 1;
for (Element item : elements) {
System.out.println(item.text() );
}
// 关闭浏览器
driver.quit();
}
}
有几个注意事项,一是这里chromedriver需要和自己chrome浏览器的版本一致,
二是代码里登陆表单和用户名密码等需要自己在登陆页面上获得,通过查看源码获取相对应的名字(名称可能不一样)。
如何就可以根据源码分析数据了