《简单的网页爬虫小程序》

最新推荐文章于 2024-10-08 16:37:40 发布

太自由

最新推荐文章于 2024-10-08 16:37:40 发布

阅读量751

点赞数

文章标签： java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_23388169/article/details/81152335

版权

这是一个简单的网页爬虫程序。其主要功能是获取指定网页中的邮箱地址。

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.URL;
import java.net.URLConnection;
import java.util.HashSet;
import java.util.Set;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class NetSpider {
	public static void main(String[] args) throws IOException {

		String str_url = "https://bbs.hcbbs.com/thread-1259140-1-1.html";// 提供网络地址的URL

		String regex = "\\w+@\\w+(\\.\\w+)+";// 匹配规则（使用正则表达式）（这个匹配邮箱的正则表达式只是一个宽泛的匹配模式）

		Set<String> set = getMailsByNet(str_url, regex);// getMailsByNet(str_url,regex)方法返回获得的邮件地址

		for (String string : set) {// 遍历set集合，打印遍历到的邮箱地址
			System.out.println(string);
		}
	}

	// 基于网络的获取邮件地址
	public static Set<String> getMailsByNet(String str_url, String regex)throws IOException {
		
		Set<String> set = new HashSet<String>();// 创建list集合
		
		URL url = new URL(str_url);// 将str_url封装成URL对象
		
		URLConnection conn = url.openConnection();// 打开连接
		
		InputStream in = conn.getInputStream();// 获取读取流
		BufferedReader bufIn = new BufferedReader(new InputStreamReader(in));
		
		Pattern p = Pattern.compile(regex);// 将正则表达式编译成对象
		
		String line = null;// 频繁读写操作
		while ((line = bufIn.readLine()) != null) {
			
			Matcher m = p.matcher(line);// 通过正则表达式对象获取匹配器
			while (m.find()) {// 把得到的邮箱存储到list集合中
				set.add(m.group());
			}
		}
		bufIn.close();// 关闭资源
		return set;
	}
}

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

太自由 CSDN认证博客专家 CSDN认证企业博客

码龄10年

62: 原创

1万+: 周排名

2万+: 总排名

4万+: 访问

: 等级

1121: 积分

236: 粉丝

406: 获赞

5: 评论

335: 收藏

私信

关注

热门文章

分类专栏

SpringBoot 13篇
idea 2篇
读书笔记 7篇
术语 1篇
笔记 2篇
Java 13篇
日志 1篇

最新评论

SpringBoot之定时任务
Kwan的解忧杂货铺@新空间代码工作室: 博主的文章总是内容丰富，讲解得非常清晰🔥🔥🔥，每次都是一次启发，你的博客如同一本知识宝典🎉 🎉 🎉，每次阅读都充实了我的思维，期待博主下次更新🍭🍭🍭。真的很感谢你的贡献。
Spring中的事件监听器使用学习
Kwan的解忧杂货铺@新空间代码工作室: 博主的文章总是如一盏明灯，指引我前进，每一篇博文都是一次心灵的提升，你的分享总是如此珍贵，你的博文总是让我拓展了视野，增长了见识，感谢你一直以来的无私奉献。期待更多知识的分享。非常感激你的专业知识传授。
Spring中的事件监听器使用学习
ha_lydms: 非常不错的技术领域文章分享，解决了我在实践中的大问题！博主很有耐心，更有对知识的热忱和热爱，写了这么实用有效的分享，值得收藏点赞。
IDEA中调用方法时，同步显示方法的注释信息
人不走空: 文章很有用，感谢分享~
SpringBoot的监控(Actuator) 功能
普通网友: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，文章思路清晰【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。