java正则表达式爬图片_Java正则表达式爬取网页，贴出完整代码

MsingD

于 2021-02-25 20:41:11 发布

阅读量75

点赞数

文章标签： java正则表达式爬图片

本文链接：https://blog.csdn.net/weixin_35741812/article/details/114674676

版权

import org.openqa.selenium.WebDriver;

import org.openqa.selenium.chrome.ChromeDriver;

import org.openqa.selenium.htmlunit.HtmlUnitDriver; // HtmlUnitDriver 需要用到的包

import java.util.regex.Matcher;

import java.util.regex.Pattern;

import java.util.List;

import java.util.ArrayList;

/**

* 获取今日头条的某条资讯 (仅测试)

* @author qyx

* @return

public void toutiao(){

* 这里使用的是ChromeDriver浏览器驱动，调用方法就会打开浏览器，执行速度慢，等待时间长

* 推荐项目中使用HtmlUnitDriver,伪浏览器，不打开浏览器，所有省去了渲染页面的时间，速度相对比较快，用法一样，注意加jar包

WebDriverdriver =new ChromeDriver();

driver.get("https://www.toutiao.com/a6458888925732667918/");

// 整个页面的原代码

Stringcontent = driver.getPageSource();

/** 这里代码类似于Python的re模块，re模块很强大，这里代码实现功能相当于Python正则表达式的“re.findall()” */

Matcherm = Pattern.compile("

(.*?).*?.*? (.*?).*? .*?.*?

.*?

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注