java 正则提取邮箱_java利用正则表达式获取一个网页中的所有邮箱地址

package cn.gson.demo;

/**

* 抓取网页邮箱地址类

*/

import java.io.BufferedReader;

import java.io.File;

import java.io.FileWriter;

import java.io.InputStreamReader;

import java.io.PrintWriter;

import java.io.Writer;

import java.net.URL;

import java.net.URLConnection;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

public class WebCrawlersDemo {

public static void main(String[] args) throws Exception {

//在本地创建一个.txt文件

File file = new File("e://file//test.txt");

//链接到需要提取内容的网页

URL url = new URL("http://www.mgmt.uestc.edu.cn/Category/Page?Catid=427");

//打开连接

URLConnection conn = url.openConnection();

//设置连接网络超时时间

conn.setConnectTimeout(1000 * 10);

//读取指定网络地址中的文件 (输入缓冲流)

BufferedReader bufr = new BufferedReader(new InputStreamReader(conn.getInputStream()));

//将内容保存到text.txt文件中(输出缓冲流)

Writer wt = new FileWriter(file,true);

//将字符流包装成缓冲流

PrintWriter pw = new PrintWriter(wt,true);

String line = null;

//匹配email的正则

String regex = "[a-zA-Z0-9_-]+@\\w+\\.[a-z]+(\\.[a-z]+)?";

Pattern p = Pattern.compile(regex);

while((line = bufr.readLine()) != null) {

Matcher m = p.matcher(line);

while(m.find()) {

//写入到文件

pw.write(m.group());

//获得匹配的email

System.out.println(m.group());

}

}

//刷新输出流

pw.flush();

//先关闭输出流

pw.close();

//关闭输入流

bufr.close();

}

}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值