如何使用java的正则表达式提取html标签?

转载 2015年11月24日 16:37:25


import java.util.ArrayList;
import java.util.Iterator;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Test {

   public static void main(String args[]) {
       String html = "<title>ABCD</title>gsdggas<title></title>jkll<title>005</title>";
       // 简单示例,相当于String html=getHtml(String urlString);
       List resultList = getContext(html);
       for (Iterator iterator = resultList.iterator(); iterator.hasNext();) {
           String context = (String) iterator.next();
           System.out.println(context);
       }
   }
   
   /**
    * 提取"<title>XXXX</title>"中的文字XXXX
    * @param html 要解析的html文档内容
    * @return 解析结果,可以多次匹配,每次匹配的结果按文档中出现的先后顺序添加进结果List
    */
   public static List getContext(String html) {
       List resultList = new ArrayList();
       Pattern p = Pattern.compile("<title>([^</title>]*)");//匹配<title>开头,</title>结尾的文档
       Matcher m = p.matcher(html );//开始编译
       while (m.find()) {
           resultList.add(m.group(1));//获取被匹配的部分
       }
       return resultList;
   }
}

相关文章推荐

java过滤或替换html标签

package moon.cn.akn.offline.action; import java.util.regex.Matcher; import java.util.regex.Patter...

java正则表达式(HTML提取)

1、 过滤标签 ]*\\s*>\\s*(.*?)\\s* 2、过滤Img标签 ]*)\\s*/?\\s*> 3、过滤Img标签下的src ]*)src\\s*=\\s*([^>]+)...

正则表达式获取HTML标记innerHTML

// Regex match RegexOptions options = RegexOptions.None; Regex regex = new R...

Delphi7高级应用开发随书源码

  • 2003年04月30日 00:00
  • 676KB
  • 下载

java 使用正则表达式从网页上提取网站标题

     如何从网页上抓取有价值的东西?看懂了下面的程序(非常简单),想从网页上抓取什么信息(标题、内容、Email、价格等)就能抓取什么信息。package catchhtml;import jav...

java正则表达式获取指定HTML标签的指定属性值

有时可能会有这样的需求,从HTML页面获取指定标签的指定属性值,可以通过第三方库解析来获取,但是这样相对比较麻烦! 如果使用正则表达式,那么就变得简单了。代码如下: package com.mmq.r...
  • mhmyqn
  • mhmyqn
  • 2012年11月20日 23:03
  • 22827

Delphi7高级应用开发随书源码

  • 2003年04月30日 00:00
  • 676KB
  • 下载

java使用正则获取字符串HTML代码段中的内容 节点属性值

public static List match(String source,String reg) {               List result = new ArrayList();  ...
  • liqi_q
  • liqi_q
  • 2016年11月11日 10:56
  • 534

取出文本中的html代码,利用正则表达式

//这是获取纯文本的功能 String htmlStr = model.getContent(); //含html标签的字符串,model.getContent()是输入的文本 ...

正则提取出HTML正文(剔除标签内容)python实现

正则提取出HTML正文(剔除标签内容)python实现
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:如何使用java的正则表达式提取html标签?
举报原因:
原因补充:

(最多只允许输入30个字)