java实现截取网页中所包含的网址

以网易为例,截取网易中包含的所有网址,并把网址输出到本地txt文件


import java.io.BufferedReader;
import java.io.File;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.PrintWriter;
import java.net.MalformedURLException;
import java.net.URL;
import java.net.URLConnection;
import java.util.HashSet;
import java.util.Set;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class URlduqu {

    public static void main(String[] args) {
        //截取网址的规范
        Pattern guize = Pattern.compile("<a href=.*</a>");
        //去掉无用网址的规范
        Pattern wang = Pattern.compile("http.*");
        try {

            URL url = new URL("http://www.163.com");
            URLConnection conn = url.openConnection();
            java.io.InputStream is = conn.getInputStream();
            BufferedReader br = new BufferedReader(new InputStreamReader(is,"gb2312"));
            //未去重的网址存放文件
            File f = new File("F:"+File.separator+"网址1.txt");
            PrintWriter pw = new PrintWriter(f);
            //去重后的网址存放文件
            File f2 = new File("F:"+File.separator+"网址3.txt");
            PrintWriter aaa = new PrintWriter(f2);
            String str = null;
            int n =0;//标记网址的个数(数组长度)
            String[] wangzhi = new String[2000];//所有网址放入这个数组
            String[] zhi;//去重后的网址数组
            while((str=br.readLine())!=null){
                Matcher m = guize.matcher(str);

                if(m.find()){
                    //截取网址
                    str = str.substring(str.indexOf("href=\"")+6);
                    str = str.substring(0,str.indexOf("\""));
                    //判断网址是否符合wang设置的规则,如果符合规则就打印到网址.txt中
                    if(wang.matcher(str).matches()){
                        pw.println(str);
                        wangzhi[n]=str;
                        n++;
                    }
                }
            }
            //去重操作
            Set set = new HashSet();
            for (int i = 0; i < n; i++) {
                set.add(wangzhi[i]);
            }
            zhi = (String[]) set.toArray(new String[0]);

            for(String a:zhi){
                aaa.println(a);
            }

            aaa.close();
            pw.close();
            br.close();
        } catch (MalformedURLException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }

    }

}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值