import org.openqa.selenium.WebDriver;
import org.openqa.selenium.chrome.ChromeDriver;
import org.openqa.selenium.htmlunit.HtmlUnitDriver; // HtmlUnitDriver 需要用到的包
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import java.util.List;
import java.util.ArrayList;
/**
* 获取今日头条的某条资讯 (仅测试)
* @author qyx
* @return
*/
public void toutiao(){
/*
* 这里使用的是ChromeDriver浏览器驱动,调用方法就会打开浏览器,执行速度慢,等待时间长
* 推荐项目中使用HtmlUnitDriver,伪浏览器,不打开浏览器,所有省去了渲染页面的时间,速度相对比较快,用法一样,注意加jar包
*/
WebDriverdriver =new ChromeDriver();
driver.get("https://www.toutiao.com/a6458888925732667918/");
// 整个页面的原代码
Stringcontent = driver.getPageSource();
/** 这里代码类似于Python的re模块,re模块很强大,这里代码实现功能相当于Python正则表达式的“re.findall()” */
Matcherm = Pattern.compile("
(.*?).*?.*? (.*?).*? .*?.*?