java正则表达式爬虫_使用正则表达式实现网页爬虫的思路详解

最新推荐文章于 2024-06-12 14:09:44 发布

xuhxWw

最新推荐文章于 2024-06-12 14:09:44 发布

阅读量119

点赞数

文章标签： java正则表达式爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_29932857/article/details/114674632

版权

网页爬虫：就是一个程序用于在互联网中获取指定规则的数据。这篇文章主要介绍了使用正则表达式实现网页爬虫的思路详解,需要的朋友可以参考下

网页爬虫：就是一个程序用于在互联网中获取指定规则的数据。

思路：

1.为模拟网页爬虫，我们可以现在我们的tomcat服务器端部署一个1.html网页。(部署的步骤：在tomcat目录的webapps目录的ROOTS目录下新建一个1.html。使用notepad++进行编辑，编辑内容为：

)

2.使用URL与网页建立联系

3.获取输入流，用于读取网页中的内容

4.建立正则规则，因为这里我们是爬去网页中的邮箱信息，所以建立匹配邮箱的正则表达式：String regex="\w+@\w+(.\w+)+";

5.将提取到的数据放到集合中。

代码：

`import java.io.BufferedReader;`

`import java.io.InputStream;`

`import java.io.InputStreamReader;`

`import java.net.URL;`

`import java.util.ArrayList;`

`import java.util.List;`

`import java.util.regex.Matcher;`

`import java.util.regex.Pattern;`

`/*`

`* 网页爬虫:就是一个程序用于在互联网中获取指定规则的数据`

`*`

`*`

`*/`

`public class RegexDemo {`

`public static void main(String[] args) throws Exception {`

`List list=getMailByWeb();`

`for``(String str:list){`

`System.out.println(str);`

`}`

`}`

`private static List getMailByWeb() throws Exception {`

`//1.与网页建立联系。使用URL`

`String path=``"[http://localhost:8080//1.html](http://localhost:8080//1.html)"``;//后面写双斜杠是用于转义`

`URL url=``new` `URL(path);`

`//2.获取输入流`

`InputStream is=url.openStream();`

`//加缓冲`

`BufferedReader br=``new` `BufferedReader(``new` `InputStreamReader(is));`

`//3.提取符合邮箱的数据`

`String regex=``"\\w+@\\w+(\\.\\w+)+"``;`

`//进行匹配`

`//将正则规则封装成对象`

`Pattern p=Pattern.compile(regex);`

`//将提取到的数据放到一个集合中`

`List list=``new` `ArrayList();`

`String line=``null``;`

`while``((line=br.readLine())!=``null``){`

`//匹配器`

`Matcher m=p.matcher(line);`

`while``(m.find()){`

`//3.将符合规则的数据存储到集合中`

`list.add(m.group());`

`}`

`}`

`return` `list;`

`}`

`}`

注意:在执行前需要先开启tomcat服务器

运行结果：

总结

以上所述是小编给大家介绍的使用正则表达式实现网页爬虫的思路详解，希望对大家有所帮助，如果大家有任何疑问请给我留言

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java正则表达式爬虫_使用正则表达式实现网页爬虫的思路详解

网页爬虫：就是一个程序用于在互联网中获取指定规则的数据。这篇文章主要介绍了使用正则表达式实现网页爬虫的思路详解,需要的朋友可以参考下网页爬虫：就是一个程序用于在互联网中获取指定规则的数据。思路：1.为模拟网页爬虫，我们可以现在我们的tomcat服务器端部署一个1.html网页。(部署的步骤：在tomcat目录的webapps目录的ROOTS目录下新建一个1.html。使用notepad++进行编辑...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。