java 正则提取邮箱_java利用正则表达式获取一个网页中的所有邮箱地址

package cn.gson.demo;

/**

* 抓取网页邮箱地址类

*/

import java.io.BufferedReader;

import java.io.File;

import java.io.FileWriter;

import java.io.InputStreamReader;

import java.io.PrintWriter;

import java.io.Writer;

import java.net.URL;

import java.net.URLConnection;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

public class WebCrawlersDemo {

public static void main(String[] args) throws Exception {

//在本地创建一个.txt文件

File file = new File("e://file//test.txt");

//链接到需要提取内容的网页

URL url = new URL("http://www.mgmt.uestc.edu.cn/Category/Page?Catid=427");

//打开连接

URLConnection conn = url.openConnection();

//设置连接网络超时时间

conn.setConnectTimeout(1000 * 10);

//读取指定网络地址中的文件 (输入缓冲流)

BufferedReader bufr = new BufferedReader(new InputStreamReader(conn.getInputStream()));

//将内容保存到text.txt文件中(输出缓冲流)

Writer wt = new FileWriter(file,true);

//将字符流包装成缓冲流

PrintWriter pw = new PrintWriter(wt,true);

String line = null;

//匹配email的正则

String regex = "[a-zA-Z0-9_-]+@\\w+\\.[a-z]+(\\.[a-z]+)?";

Pattern p = Pattern.compile(regex);

while((line = bufr.readLine()) != null) {

Matcher m = p.matcher(line);

while(m.find()) {

//写入到文件

pw.write(m.group());

//获得匹配的email

System.out.println(m.group());

}

}

//刷新输出流

pw.flush();

//先关闭输出流

pw.close();

//关闭输入流

bufr.close();

}

}

强大的扩展,以提取电子邮件ID自动从网页。新功能:自动访问网站和自动保存电子邮件id。 在几秒钟内找到电子邮件地址。电子邮件提取器是功能强大的Chrome浏览器电子邮件提取扩展程序 Extension会自动从网页获取有效的电子邮件ID,您可以复制粘贴所需的特定电子邮件ID,也可以将所有电子邮件ID导出到文本或CSV文件。新功能1:新的自动化工具可以发现特定域名的所有电子邮件地址。例如:如果您想查找在Email Hunter工作的人员的电子邮件ID,则可以使用该工具来搜索以hunter.io或emailhunter.io结尾的任何电子邮件地址,该工作可以在任何网站上完成。新功能2:您可以在自动访问网页时添加5秒的延迟,因此即使JavaScript延迟了电子邮件ID的显示,您也可以确保加载了所有页面并收集了所有电子邮件ID。带有AutoVisit和AutoSave的自动化。工作原理:**自动化:允许您建立最多1.000个您要访问的URL的队列。该工具将启动一个机器人,该机器人将访问请求的页面并提取在这些网页上找到的所有电子邮件地址 **自动保存:此功能将在您访问的所有页面上找到的所有电子邮件ID存储在云。该插件从源代码获取电子邮件ID,并且与您在正面看到的无关,因此,例如,如果您在网站上看到3个电子邮件ID,则插件可以在源找到隐藏的电子邮件ID来获取更多信息。功能:-自动访问:构建要自动访问的URL队列-自动化:发现所有以特定域名结尾的电子邮件ID-自动从网页提取电子邮件地址-浏览时自动将所有电子邮件地址保存在云任何网站(云存储起价为9.99美元/月)-与您的同事共享您的高级订阅-下载存储的电子邮件ID-以及提取Ajax页面上的电子邮件,例如Google搜索-提取隐藏的电子邮件-过滤重复的电子邮件ID,因此您仅获取唯一邮件-本地存储-导出选项,用于将提取电子邮件列表导出到文本文件-脱机支持(自v1.6 Beta起添加)需要权限-https://www.youtube.com/watch?v= wf9Knllbcj0-从本地HTML文档提取电子邮件-从文本文件提取电子邮件-快速,轻便(仅51KB)-删除重复的电子邮件地址没有笨拙的广告,没有多余的垃圾。定价:此扩展是Email Hunter,voila norbert,Clearbit Connect或FTL(查找潜在客户)的廉价替代品。另一方面,您将需要一些技术知识来进行配置。提示:使用我们推荐的“食谱”。请注意,如果您打开新标签页并浏览到新页面,则提取的ID将被覆盖,对于这种特殊情况,请切换到上一个标签,插件将获取ID,然后您可以导出他们。尽管此插件访问您的网页信息,但唯一要提取的是电子邮件ID,这些ID也存储在您的本地存储。扩展程序经过了全面的测试,如果万一任何人遇到任何错误,都可以在单击插件上的“齿轮”按钮时获得我的联系方式,并且我将确保尽快修复该问题。非正式免责声明:开发此扩展并不是为了向您的营销邮件发送垃圾邮件,因此只能将其用于您的个人物品 --------------更改日志:-v3.6 ---自动将所有电子邮件地址保存在云(无限存储,每月$ 9.99)---下载存储的电子邮件ID- -从列表清理笨拙的电子邮件-v3.5-添加了“捐赠”按钮以支持开发。即将推出新功能:)-v3.4.2-回滚到旧版本2.1(用于稳定版本)如果您仍然发现插件无法正常工作,请重新安装,将尽快上载新版本-v3.4.1-回滚到旧版本版本(用于稳定版本)-v3.4-修复了一些小错误,用户无法在弹出窗口看到电子邮件,因此已修复(如果您看到计数但在弹出窗口没有看到电子邮件,请重新安装插件)-v3 .3-再次添加了清除存储的电子邮件选项而不导出它们-添加了有关插件的问题/建议/报告错误的链接-v3.2-我搞砸了一些错误,因此恢复为v3.0-v3.1- -添加了用于清除存储的电子邮件而不导出它们的按钮-v3-添加了存储支持。所有电子邮件ID都将存储在“存储”页面上-在安装和更新消息添加-v2.1-修复了与导出功能相关的一些错误-v2.0(主要版本,如果尚未更新,请考虑更新)- Ajax调用不再有问题-更新了选项卡交换上的电子邮件计数-没有更多的Beta :)-v1.6 Beta-添加了离线支持-从本地HTML和文本文档提取电子邮件ID-v1.5 Beta-非持久处理以提高性能-改善Ajax处理-撤消“所有选项卡”访问权限-初始发行版 支持语言:English
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值