如何使用java的正则表达式提取html标签?

转载 2015年11月24日 16:37:25


import java.util.ArrayList;
import java.util.Iterator;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Test {

   public static void main(String args[]) {
       String html = "<title>ABCD</title>gsdggas<title></title>jkll<title>005</title>";
       // 简单示例,相当于String html=getHtml(String urlString);
       List resultList = getContext(html);
       for (Iterator iterator = resultList.iterator(); iterator.hasNext();) {
           String context = (String) iterator.next();
           System.out.println(context);
       }
   }
   
   /**
    * 提取"<title>XXXX</title>"中的文字XXXX
    * @param html 要解析的html文档内容
    * @return 解析结果,可以多次匹配,每次匹配的结果按文档中出现的先后顺序添加进结果List
    */
   public static List getContext(String html) {
       List resultList = new ArrayList();
       Pattern p = Pattern.compile("<title>([^</title>]*)");//匹配<title>开头,</title>结尾的文档
       Matcher m = p.matcher(html );//开始编译
       while (m.find()) {
           resultList.add(m.group(1));//获取被匹配的部分
       }
       return resultList;
   }
}

匹配所有合法的HTML标签的正则表达式

今天在看书时发现,用python正则表达式可以很方便的匹配HTML标签,表达式如下 ]+>...
  • yyd19921214
  • yyd19921214
  • 2016-11-02 12:30:41
  • 386

java正则表达式(HTML提取)

1、 过滤标签 ]*\\s*>\\s*(.*?)\\s* 2、过滤Img标签 ]*)\\s*/?\\s*> 3、过滤Img标签下的src ]*)src\\s*=\\s*([^>]+)...
  • zhang_Red
  • zhang_Red
  • 2012-04-01 12:05:32
  • 6154

正则获取HTML标签内的内容

var a = 'xyz'; var b = "test"; var c = "asasa"; //通过正则表达式获取 var reg = />(.+)tes...
  • sunhuwh
  • sunhuwh
  • 2014-12-05 23:00:13
  • 8568

正则表达式提取html标签里的内容

public static void asdf() { var strJson = @"123123123123111566051231231231231233...
  • qq373591361
  • qq373591361
  • 2016-08-24 15:32:34
  • 4570

Jsoup解析HTML 标签内容

一、   JSOUP简介 在以往用Java来处理解析HTML文档或者片段时,我们通常会采用htmlparser(http://htmlparser.sourceforge.NET/)这个开源类库。现...
  • KevinwuwenboA
  • KevinwuwenboA
  • 2016-11-12 14:10:11
  • 4701

java正则匹配html片段,并取得标签中的内容

最近java群好友发来一个html代码,要帮忙匹配查找html代码里面特定的内容:         代码如下: Html代码   dl>      dd>       span class...
  • dotedy
  • dotedy
  • 2015-10-30 16:50:13
  • 564

<em>java正则</em>表达式过滤<em>html标签</em>

C#过滤<em>HTML标签</em>源码,使用的<em>正则</em>表达式 立即下载 上传者: JRoger_ 时间: 2011-05-06 综合评分: 4 积分/C币:3 <em>Java</em> 中 过滤<em>Html标签</em> 立即下载 上传者: ...
  • 2018年04月12日 00:00

java正则表达式取得html标签内的内容

Pattern p = Pattern.compile("(?]*?>)[^)"); Matcher matcher= p.matcher("你好"); while(matcher.find(...
  • w_j_w2010
  • w_j_w2010
  • 2015-11-24 16:27:43
  • 632

java正则表达式获取指定HTML标签的指定属性值

有时可能会有这样的需求,从HTML页面获取指定标签的指定属性值,可以通过第三方库解析来获取,但是这样相对比较麻烦! 如果使用正则表达式,那么就变得简单了。代码如下: package com.mmq.r...
  • mhmyqn
  • mhmyqn
  • 2012-11-20 23:03:38
  • 24174

Java 获取Html文本中的img标签下src中的内容

/** * 得到网页中图片的地址 */ public static Set getImgStr(String htmlStr) { Set pics = n...
  • xyajia
  • xyajia
  • 2017-08-28 14:30:02
  • 1550
收藏助手
不良信息举报
您举报文章:如何使用java的正则表达式提取html标签?
举报原因:
原因补充:

(最多只允许输入30个字)