java 爬虫正则_使用正则表达式实现网页爬虫的思路详解

最新推荐文章于 2024-06-12 14:09:44 发布

莎拉冬娃

最新推荐文章于 2024-06-12 14:09:44 发布

阅读量294

点赞数

文章标签： java 爬虫正则

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35588980/article/details/114454996

版权

本文详细介绍了如何使用正则表达式在Java中编写一个简单的网页爬虫，通过部署本地HTML页面，建立URL连接，读取网页内容，并利用正则规则抓取邮箱信息，最终将数据存储到集合中。此实例为初学者提供了网页爬虫的基本思路。

摘要由CSDN通过智能技术生成

网页爬虫：就是一个程序用于在互联网中获取指定规则的数据。这篇文章主要介绍了使用正则表达式实现网页爬虫的思路详解,需要的朋友可以参考下

网页爬虫：就是一个程序用于在互联网中获取指定规则的数据。

思路：

1.为模拟网页爬虫，我们可以现在我们的tomcat服务器端部署一个1.html网页。(部署的步骤：在tomcat目录的webapps目录的ROOTS目录下新建一个1.html。使用notepad++进行编辑，编辑内容为：

)

2.使用URL与网页建立联系

3.获取输入流，用于读取网页中的内容

4.建立正则规则，因为这里我们是爬去网页中的邮箱信息，所以建立匹配邮箱的正则表达式：String regex="\w+@\w+(\.\w+)+";

5.将提取到的数据放到集合中。

代码：

import java.io.BufferedReader;

import java.io.InputStream;

import java.io.InputStreamReader;

import java.net.URL;

import java.util.ArrayList;

import java.util.List;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

/*

* 网页爬虫:就是一个程序用于在互联网中获取指定规则的数据

*

*

*/

public class RegexDemo {

public static void main(String[] args) throws Exception {

List list=getMailByWeb();

for(String str:list){

System.out.println(str);

}

}

private static List getMailByWeb() throws Exception {

//1.与网页建立联系。使用URL

String path="http://localhost:8080//1.html";//后面写双斜杠是用于转义

URL url=new URL(path);

//2.获取输入流

InputStream is=url.openStream();

//加缓冲

BufferedReader br=new BufferedReader(new InputStreamReader(is));

//3.提取符合邮箱的数据

String regex="\\w+@\\w+(\\.\\w+)+";

//进行匹配

//将正则规则封装成对象

Pattern p=Pattern.compile(regex);

//将提取到的数据放到一个集合中

List list=new ArrayList();

String line=null;

while((line=br.readLine())!=null){

//匹配器

Matcher m=p.matcher(line);

while(m.find()){

//3.将符合规则的数据存储到集合中

list.add(m.group());

}

}

return list;

}

}

注意:在执行前需要先开启tomcat服务器

运行结果：

总结

以上所述是小编给大家介绍的使用正则表达式实现网页爬虫的思路详解，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对脚本之家网站的支持！

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。