抓取指定网页中的邮箱地址

该博客介绍了如何利用Java编程抓取指定网页中的邮箱地址,通过正则表达式进行匹配和提取。提供了相关文件的下载链接。
摘要由CSDN通过智能技术生成



/*
需求:
从web.txt文件中存的网址里抓取邮箱地址, 存在mail.txt文件中. 

思路: 
1, 从web.txt中读取网址, 建立连接, 用SequenceInputStream将所有网页源文件存在source.txt中. 
2, 调用getMails方法抓邮箱, 抓到的邮箱存在mail.txt中. 
*/

import java.net.*;
import java.io.*;
import java.util.*;
import java.util.regex.*;

public class Spider
{
	public static void main(String[] args) throws Exception
	{
		System.out.println("please wait..");
		getWebSource();
		System.out.println("get source success!");
		getMails();
		System.out.println("you have done.");
	}

	public static void getWebSource() throws Exception
	{
		Vector<InputStream> v = new Vector<InputStream>();
		
		BufferedReader bufr = 
				new BufferedReader(new FileReader("web.txt"));

		String line = null;
		while((line=bufr.readLine()) != null)
		{
			URL url = new URL(line);

			v.add(url.openStream());
		}

		Enumeration<InputStream> en = v.elements();

		SequenceInp
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值