本篇介绍webdriver中获取当前页面的源码,driver.getPageSource()的功能就类似,你打开一个网页,然后右键,选择查看源码一样效果。这个获取网页的源码,在网络爬虫中百分百是需要用到的。先来了解下,我们通过获取百度新闻首页的源码,打印到eclipse,看看效果。
相关脚本代码如下:
package lessons;
import java.util.concurrent.TimeUnit;
import org.openqa.selenium.By;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.chrome.ChromeDriver;
public class ElementOpration {
public static void main(String[] args) throws Exception {
System.setProperty("webdriver.chrome.driver", ".\\Tools\\chromedriver.exe");
WebDriver driver = new ChromeDriver();
driver.manage().window().maximize();
driver.manage().timeouts().implicitlyWait(5, TimeUnit.SECONDS);
driver.get("https://www.baidu.com");
Thread.sleep(1000);
WebElement news_link = driver.findElement(By.linkText("新闻"));
news_link.click();
Thread.sleep(1000);
// 打印当前页面的源码
System.out.println(driver.getPageSource());
}
}
获取当前页源码就介绍到这里,至于如何拿到源码,如何去查找我们需要的信息,这里就不介绍。因为需要一点前端知识,和正则匹配的内容。