Java正则表达式提取特定html标签内的内容

最新推荐文章于 2024-04-23 17:29:36 发布

Canliture

最新推荐文章于 2024-04-23 17:29:36 发布

阅读量5.6k

点赞数 1

分类专栏： Java 文章标签：正则表达式 html 爬虫解析

本文链接：https://blog.csdn.net/qq_37206105/article/details/108323320

版权

Java 同时被 3 个专栏收录

25 篇文章 1 订阅

订阅专栏

网络编程

12 篇文章 0 订阅

订阅专栏

Java小程序

3 篇文章 0 订阅

订阅专栏

如题：
使用正则表达式，怎么匹配特定html标签内的内容。
比如，对于如下文本串：

... ignored content
prefix content 
<html>inner content</html>
postfix content
... ignored content

我们要提取出<html>标签内的内容: inner content（这里的html标签可以换成任何其它的标签，比如<p>标签）

这里引入正则表达式的group概念：详细点击文章查看

比如：对于一个正则表达式( ( A ) ( B ( C ) ) )

group 1为：( ( A ) ( B ( C ) ) )
group 2为：( A )
group 3为：( B ( C ) )
group 4为：( C )

这样，我们就能够构造出如下的正则表达式：.*?(<(html>)(.*)</\2).*
此表达式的group概念为：

group 1: (<(html>)(.*)</\2)
group 2: (html>)
group 3: (.*)

显然我们要求的就是group3的内容。
注意：\2是对group2的引用，也就是html>
该正则表达式也可以写成：.*?(<(html>)(.*)</(html>)).* 化简其实就是.*?<html>(.*)</html>.*

代码实现为：

String p = ".*?(<(html>)(.*)</\\2).*";
String m = "prefix<html>午休abc</html>postfix";

System.out.println("Pattern: " + p);
System.out.println("String to be test: " + m);

Pattern pattern = Pattern.compile(p);
Matcher matcher = pattern.matcher(m);
if(matcher.matches()) {
   System.out.println("Matched String: " + matcher.group(3));
} else {
   System.out.println("So sad, not matching anything!");
}

Canliture

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
5
评论
Java正则表达式提取特定html标签内的内容

如题：使用正则表达式，怎么匹配特定html标签内的内容。比如，对于如下文本串：... ignored contentprefix content <html>inner content</html>postfix content... ignored content我们要提取出<html>标签内的内容: inner content（这里的html标签可以换成任何其它的标签，比如<p>标签）这里引入正则表达式的group概念：详细点击文章查看
复制链接

扫一扫