如何使用java的正则表达式提取html标签?

转载 2015年11月24日 16:37:25


import java.util.ArrayList;
import java.util.Iterator;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Test {

   public static void main(String args[]) {
       String html = "<title>ABCD</title>gsdggas<title></title>jkll<title>005</title>";
       // 简单示例,相当于String html=getHtml(String urlString);
       List resultList = getContext(html);
       for (Iterator iterator = resultList.iterator(); iterator.hasNext();) {
           String context = (String) iterator.next();
           System.out.println(context);
       }
   }
   
   /**
    * 提取"<title>XXXX</title>"中的文字XXXX
    * @param html 要解析的html文档内容
    * @return 解析结果,可以多次匹配,每次匹配的结果按文档中出现的先后顺序添加进结果List
    */
   public static List getContext(String html) {
       List resultList = new ArrayList();
       Pattern p = Pattern.compile("<title>([^</title>]*)");//匹配<title>开头,</title>结尾的文档
       Matcher m = p.matcher(html );//开始编译
       while (m.find()) {
           resultList.add(m.group(1));//获取被匹配的部分
       }
       return resultList;
   }
}

java正则表达式(HTML提取)

1、 过滤标签 ]*\\s*>\\s*(.*?)\\s* 2、过滤Img标签 ]*)\\s*/?\\s*> 3、过滤Img标签下的src ]*)src\\s*=\\s*([^>]+)...
  • zhang_Red
  • zhang_Red
  • 2012年04月01日 12:05
  • 6013

java正则表达式取得html标签内的内容

Pattern p = Pattern.compile("(?]*?>)[^)"); Matcher matcher= p.matcher("你好"); while(matcher.find(...
  • w_j_w2010
  • w_j_w2010
  • 2015年11月24日 16:27
  • 358

java正则表达式教程html版带目录

  • 2013年01月05日 17:47
  • 25KB
  • 下载

java使用正则表达式匹配HTML标签

import java.io.BufferedReader; import java.io.File; import java.io.FileReader; import java.io.IOExce...
  • xichengqc
  • xichengqc
  • 2017年12月04日 17:58
  • 50

java过滤或替换html标签

package moon.cn.akn.offline.action; import java.util.regex.Matcher; import java.util.regex.Patter...
  • liuliujingjing
  • liuliujingjing
  • 2012年10月17日 16:27
  • 6473

java正则表达式获取指定HTML标签的指定属性值

有时可能会有这样的需求,从HTML页面获取指定标签的指定属性值,可以通过第三方库解析来获取,但是这样相对比较麻烦! 如果使用正则表达式,那么就变得简单了。代码如下: package com.mmq.r...
  • mhmyqn
  • mhmyqn
  • 2012年11月20日 23:03
  • 23515

java取html标签

package com.zsjz.utils.tools; import java.net.URL; import java.util.ArrayList; import org.htm...
  • xiao_a_gang
  • xiao_a_gang
  • 2015年12月21日 14:38
  • 865

java根据 正则表达式解析html网页内容

仅供参考: import java.io.DataInputStream; import java.io.File; import java.io.FileOutputStream; import ...
  • qq_27292113
  • qq_27292113
  • 2017年05月25日 12:15
  • 1461

java正则表达式去掉所有HTML标签

package com.xz.cxzy.utils; import java.util.regex.Matcher; import java.util.regex.Pattern; public ...
  • breaker892902
  • breaker892902
  • 2014年08月14日 11:33
  • 15790

正则获取HTML标签内的内容

var a = 'xyz'; var b = "test"; var c = "asasa"; //通过正则表达式获取 var reg = />(.+)tes...
  • sunhuwh
  • sunhuwh
  • 2014年12月05日 23:00
  • 7941
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:如何使用java的正则表达式提取html标签?
举报原因:
原因补充:

(最多只允许输入30个字)