package com.regex;
import java.io.BufferedReader;
import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.net.URLConnection;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class NetSpider {
public static void main(String[] args) throws IOException {
/*
* 网络爬虫:其实就是一个应用程序去获取网络中的指定信息(符合指定规则的信息)
*
* 获取网络中的邮件地址。
*/
File file = new File("tempfile\\mail.html");
String url_str = "http://bbs.tianya.cn/post-enterprise-401802-5.shtml";
String regex="[a-zA-Z_0-9]+@[a-zA-Z0-9]+(\\.[a-zA-Z]{2,3}){1,}";
// List<String> list=getMails(file,regex);//本地文件
List<String> list=getMailsByNet(url_str,regex);//网络文件
for(String mail:list){
System.out.println(mail);
}
}
//基于网络的
public static List<String> getMailsByNet(String url_str,String regex) throws IOException
{
List<String> list = new ArrayList();
//1.将url_str封装成URL对象。
URL url = new URL(url_str);
//2.打开链接。
URLConnection conn = url.openConnection();
//3.获取读取流
InputStream in = conn.getInputStream();
BufferedReader bufIn = new BufferedReader(new InputStreamReader(in));
//4.将正则表达式编译成对象
Pattern p =Pattern.compile(regex);
String line = null;
while((line=bufIn.readLine())!=null){
Matcher m = p.matcher(line);
while(m.find()){
list.add(m.group());
}
}
bufIn.close();
return list;
}
//基于本地文件
public static List<String> getMails(File file, String regex) throws IOException {
List<String> list =new ArrayList<String>();
//1.读取文件
BufferedReader bufr = new BufferedReader(new FileReader(file));
//2.将正则规则编译成对象。
Pattern p = Pattern.compile(regex);
String line = null;
while((line=bufr.readLine())!=null){
Matcher m = p.matcher(line);
while(m.find()){
list.add(m.group());
}
}
bufr.close();
return list;
}
}
Java网络爬虫小试
最新推荐文章于 2024-06-27 17:55:39 发布