使用正则表达式来获取HTML中的链接

引用 http://www.javaresearch.org/article/82778.htm

 

  1. import java.io.BufferedReader;
  2. import java.io.FileNotFoundException;
  3. import java.io.FileReader;
  4. import java.io.IOException;
  5. import java.util.regex.Matcher;
  6. import java.util.regex.Pattern;
  7. public class LinkerFinder {
  8.     public static void main(String [] args)
  9.     {
  10.         String regStr="<a\\s+href\\s*=\\s*"//<a href=
  11.             +"(\"[^\"]*\"|[^\\s]*)\\s*" //URL部分
  12.             +"(target=\\s*(\"[^\"]*\"|[^\\s]*))?>";//target部分
  13.         StringBuffer sb=new StringBuffer();
  14.         
  15.         try {
  16.             FileReader fr = new FileReader("111.htm");
  17.             BufferedReader br=new BufferedReader(fr);
  18.             String line;
  19.             while((line=br.readLine())!=null)
  20.             {
  21.                 sb.append(line);
  22.             }
  23.             br.close();
  24.             fr.close();
  25.             Pattern ptn=Pattern.compile(regStr,Pattern.CASE_INSENSITIVE);
  26.             Matcher matcher=ptn.matcher(sb);
  27.             while(matcher.find())
  28.             {
  29.                 int start=matcher.start();
  30.                 int end=matcher.end();
  31.                 String url=sb.substring(start,end);
  32.                 System.out.println(url);
  33.             }
  34.         } catch (FileNotFoundException e) {
  35.             // TODO 自动生成 catch 块
  36.             e.printStackTrace();
  37.         } catch (IOException e) {
  38.             // TODO 自动生成 catch 块
  39.             e.printStackTrace();
  40.         }
  41.     }
  42. }



以上只是个例子,希望能给大家带来些启发.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值