Java 提取链接内容及标题

String httpTag= "<a\\b([^>]+)(.*?)</a>";
   //String linkHref= "(?:HREF\\s*=\\s*(?:\")([^\"]*)\"|'([^']*)'|([^'\">\\s]+))";
   String linkHref= "HREF\\s*=\\s*(?:\"([^\"]*)\"|'([^']*)'|([^'\">\\s]+))";
     // String linkHref= "(<a[\\s+]*([^> h]|h(?!ref\b))*href[\\s+]*=[\\s+]*[( '|\ ")]?)([^(\\s+| '|\ ")]*)([^> ]*> ) ";
   String linkTitle ="(?:>)(.*)(?:</a>$)";

 

pathHtml=ie.frame(id,"main").div(id,"PathPanel").html().toString();
        //println("LINK is :  "+pathHtml);
       
        pattern = Pattern.compile(httpTag, Pattern.CASE_INSENSITIVE);
        matcher = pattern.matcher(pathHtml);
        
         while (matcher.find())
         {    
//          int start = matcher.start();
//         int end = matcher.end();
//         String pureUrl = pathHtml.substring(start, end);            
//         System.out.println("  match Str is : "+pureUrl);
//          println("1: "+matcher.group().length());
//          println("2 :   "+matcher.groupCount());
//         println("22555 -->  "+matcher.group(2));
          lastLinkHtml=matcher.group();
         
        }       
        println("Link content:  "+lastLinkHtml);
        patternCon = Pattern.compile(linkHref, Pattern.CASE_INSENSITIVE);
        //patternCon = Pattern.compile(linkTitle, Pattern.CASE_INSENSITIVE);
        matcherCon = patternCon.matcher(lastLinkHtml);
       
         while (matcherCon.find())
         {    
//          int start = matcherCon.start();
//         int end = matcherCon.end();
//         String pureUrl = pathHtml.substring(start, end);            

          linkValue=matcherCon.group(1);
         
        }       
        println("link value is: "+linkValue);

 

  1. import java.util.regex.*;  
  2.   
  3.   
  4. public class RegExpParseHTML {  
  5.   
  6.     /** 
  7.      * @param args 
  8.      */  
  9.     public static void main(String[] args) {  
  10.         // TODO Auto-generated method stub  
  11.         String html = "<a href=\"http://www.autohome.com.cn/780/\" style=\"text-decoration:none;\" target=\"_blank\" title=\"[D] 大众UP频道\" >[D] 大众UP频道</a>";  
  12.         String href = parseHref(html);  
  13.         System.out.println(href);  
  14.     }  
  15.   
  16.     public static String parseHref(String html)  
  17.     {  
  18.         String regex = "<a[\\s]+href[\\s]*=[\\s]*\"([^<\"]+)\"";  
  19.         //String regex = "[^.]";  
  20.         Pattern p = Pattern.compile(regex, Pattern.CASE_INSENSITIVE);  
  21.           
  22.         Matcher m = p.matcher(html);  
  23.           
  24.         StringBuffer ret = new StringBuffer();  
  25.         while(m.find())  
  26.         {  
  27.             ret.append(m.group(1));  
  28.         }  
  29.           
  30.         return ret.toString();  
  31.     }  
  32.   
  33.       
  34.           
  35. }  

 

查看原文

 

痴人硕梦-->Aerchi
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值