java 正则提取邮箱_java利用正则表达式获取一个网页中的所有邮箱地址

最新推荐文章于 2021-03-14 22:50:44 发布

戚本刚

最新推荐文章于 2021-03-14 22:50:44 发布

阅读量272

点赞数

文章标签： Java 网页抓取正则表达式邮箱地址文件操作

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_30695909/article/details/113898379

版权

package cn.gson.demo;

/**

* 抓取网页邮箱地址类

*/

import java.io.BufferedReader;

import java.io.File;

import java.io.FileWriter;

import java.io.InputStreamReader;

import java.io.PrintWriter;

import java.io.Writer;

import java.net.URL;

import java.net.URLConnection;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

public class WebCrawlersDemo {

public static void main(String[] args) throws Exception {

//在本地创建一个.txt文件

File file = new File("e://file//test.txt");

//链接到需要提取内容的网页

URL url = new URL("http://www.mgmt.uestc.edu.cn/Category/Page?Catid=427");

//打开连接

URLConnection conn = url.openConnection();

//设置连接网络超时时间

conn.setConnectTimeout(1000 * 10);

//读取指定网络地址中的文件 (输入缓冲流)

BufferedReader bufr = new BufferedReader(new InputStreamReader(conn.getInputStream()));

//将内容保存到text.txt文件中(输出缓冲流)

Writer wt = new FileWriter(file,true);

//将字符流包装成缓冲流

PrintWriter pw = new PrintWriter(wt,true);

String line = null;

//匹配email的正则

String regex = "[a-zA-Z0-9_-]+@\\w+\\.[a-z]+(\\.[a-z]+)?";

Pattern p = Pattern.compile(regex);

while((line = bufr.readLine()) != null) {

Matcher m = p.matcher(line);

while(m.find()) {

//写入到文件

pw.write(m.group());

//获得匹配的email

System.out.println(m.group());

}

}

//刷新输出流

pw.flush();

//先关闭输出流

pw.close();

//关闭输入流

bufr.close();

}

}

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。