Java网络爬虫小试

package com.regex;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.net.URLConnection;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class NetSpider {

    public static void main(String[] args) throws IOException {
        /*
         * 网络爬虫:其实就是一个应用程序去获取网络中的指定信息(符合指定规则的信息)
         * 
         * 获取网络中的邮件地址。
         */
        File file = new File("tempfile\\mail.html");
        String url_str = "http://bbs.tianya.cn/post-enterprise-401802-5.shtml";
        String regex="[a-zA-Z_0-9]+@[a-zA-Z0-9]+(\\.[a-zA-Z]{2,3}){1,}";
//      List<String> list=getMails(file,regex);//本地文件
        List<String> list=getMailsByNet(url_str,regex);//网络文件
        for(String mail:list){
            System.out.println(mail);
        }
    }
    //基于网络的
    public static List<String> getMailsByNet(String url_str,String regex) throws IOException
    {
        List<String> list = new ArrayList();
        //1.将url_str封装成URL对象。
        URL url = new URL(url_str);
        //2.打开链接。
        URLConnection conn = url.openConnection();
        //3.获取读取流
        InputStream in = conn.getInputStream();
        BufferedReader bufIn = new BufferedReader(new InputStreamReader(in));
        //4.将正则表达式编译成对象
        Pattern p =Pattern.compile(regex);

        String line = null;
        while((line=bufIn.readLine())!=null){
            Matcher m = p.matcher(line);
            while(m.find()){
                list.add(m.group());
            }
        }
        bufIn.close();
        return list;

    }
    //基于本地文件
    public static List<String> getMails(File file, String regex) throws IOException {
        List<String> list =new ArrayList<String>();
        //1.读取文件
        BufferedReader bufr = new BufferedReader(new FileReader(file));
        //2.将正则规则编译成对象。
        Pattern p = Pattern.compile(regex);
        String line = null;
        while((line=bufr.readLine())!=null){
            Matcher m = p.matcher(line);
            while(m.find()){
                list.add(m.group());
            }
        }

        bufr.close();
        return list;
    }

}
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值