java 爬虫 正则_使用正则表达式实现网页爬虫的思路详解

本文详细介绍了如何使用正则表达式在Java中编写一个简单的网页爬虫,通过部署本地HTML页面,建立URL连接,读取网页内容,并利用正则规则抓取邮箱信息,最终将数据存储到集合中。此实例为初学者提供了网页爬虫的基本思路。
摘要由CSDN通过智能技术生成

网页爬虫:就是一个程序用于在互联网中获取指定规则的数据。这篇文章主要介绍了使用正则表达式实现网页爬虫的思路详解,需要的朋友可以参考下

网页爬虫:就是一个程序用于在互联网中获取指定规则的数据。

思路:

1.为模拟网页爬虫,我们可以现在我们的tomcat服务器端部署一个1.html网页。(部署的步骤:在tomcat目录的webapps目录的ROOTS目录下新建一个1.html。使用notepad++进行编辑,编辑内容为:

d3ba450a2081f37c26c9ca036953961d.png)

2.使用URL与网页建立联系

3.获取输入流,用于读取网页中的内容

4.建立正则规则,因为这里我们是爬去网页中的邮箱信息,所以建立匹配 邮箱的正则表达式:String regex="\w+@\w+(\.\w+)+";

5.将提取到的数据放到集合中。

代码:

import java.io.BufferedReader;

import java.io.InputStream;

import java.io.InputStreamReader;

import java.net.URL;

import java.util.ArrayList;

import java.util.List;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

/*

* 网页爬虫:就是一个程序用于在互联网中获取指定规则的数据

*

*

*/

public class RegexDemo {

public static void main(String[] args) throws Exception {

List list=getMailByWeb();

for(String str:list){

System.out.println(str);

}

}

private static List getMailByWeb() throws Exception {

//1.与网页建立联系。使用URL

String path="http://localhost:8080//1.html";//后面写双斜杠是用于转义

URL url=new URL(path);

//2.获取输入流

InputStream is=url.openStream();

//加缓冲

BufferedReader br=new BufferedReader(new InputStreamReader(is));

//3.提取符合邮箱的数据

String regex="\\w+@\\w+(\\.\\w+)+";

//进行匹配

//将正则规则封装成对象

Pattern p=Pattern.compile(regex);

//将提取到的数据放到一个集合中

List list=new ArrayList();

String line=null;

while((line=br.readLine())!=null){

//匹配器

Matcher m=p.matcher(line);

while(m.find()){

//3.将符合规则的数据存储到集合中

list.add(m.group());

}

}

return list;

}

}

注意:在执行前需要先开启tomcat服务器

运行结果:

07c42e46380f5a6e488a4361f31c1b70.png

总结

以上所述是小编给大家介绍的使用正则表达式实现网页爬虫的思路详解,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对脚本之家网站的支持!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值