java开发一个简单的网页爬虫训练正则表达式

最新推荐文章于 2023-01-14 23:17:46 发布

神一样的编码

最新推荐文章于 2023-01-14 23:17:46 发布

阅读量1.6k

点赞数 1

分类专栏： java 文章标签：正则表达式爬虫 regex

本文链接：https://blog.csdn.net/u013797038/article/details/49473295

版权

java 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

不说了，上代码

【网页爬虫】

package regex;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URL;
import java.net.URLConnection;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Demo {
public static void main(String[] args) throws IOException {
spider();
}
public static void spider() throws IOException{
URL url = new URL("http://www.163.com");
URLConnection conn = url.openConnection();
BufferedReader uf = new BufferedReader(new InputStreamReader(conn.getInputStream()));
String line = null;
String reg = "\\<img\\s+src=.*?\\s*\\/?\\>\\i";
Pattern p = Pattern.compile(reg);
while((line = uf.readLine())!=null){
Matcher m = p.matcher(line);
while(m.find()){
System.out.println(m.group());
}
}
}
}

优惠劵

神一样的编码

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
java开发一个简单的网页爬虫训练正则表达式

不说了，上代码【网页爬虫】package regex;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import java.net.URL;import java.net.URLConnection;import java.util.
复制链接

扫一扫