在处理 HTML 内容时,常常会遇到需要从富文本中提取信息或清理不必要标签的需求。无论是爬取网页数据还是处理用户生成的内容,掌握如何高效地处理 HTML 内容都是至关重要的。今天,我将分享一个简单而实用的 Java 工具类,它能够帮助你轻松地去除 HTML 标签并提取图片链接。
工具类概述
我们编写的 HtmlTagUtil
类包含两个主要功能:
- 去除 HTML 标签:从字符串中删除所有 HTML 标签,包括
<script>
和<style>
标签,留下纯文本。 - 提取图片链接:从富文本中提取所有图片的
src
属性值,即图片的 URL。
代码实现:
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class HtmlTagUtil {
private static final Pattern P_IMAGE = Pattern.compile("<img[^>]+src\\s*=\\s*['\"]([^'\"]+)['\"][^>]*>", Pattern.CASE_INSENSITIVE);
/**
* 去除富文本编辑器标签
*
* @param inputString 含HTML标签的字符串
* @return 纯文本字符串
*/
public static String removeHtmlTag(String inputString) {
if (inputString == null) {
return null;
}
String htmlStr = inputString;
try {
// 去除 script 和 style 标签
htmlStr = htmlStr.replaceAll("(?i)<script.*?>.*?</script>", "");
htmlStr = htmlStr.replaceAll("(?i)<style.*?>.*?</style>", "");
// 去除其他 HTML 标签
htmlStr = htmlStr.replaceAll("(?i)<[^>]+>", "");
// 去除不间断空格
htmlStr = htmlStr.replace(" ", " ");
} catch (Exception e) {
e.printStackTrace();
}
return htmlStr.trim();
}
/**
* 提取富文本中图片地址
*
* @param richText 富文本字符串
* @return 图片地址列表
*/
public static List<String> getImgStr(String richText) {
List<String> list = new ArrayList<>();
Matcher matcher = P_IMAGE.matcher(richText);
while (matcher.find()) {
list.add(matcher.group(1));
}
return list;
}
}
功能解析
1. 去除 HTML 标签
removeHtmlTag
方法旨在从包含 HTML 标签的字符串中提取纯文本。具体实现步骤如下:
- 去除
<script>
和<style>
标签:使用正则表达式匹配并删除<script>
和<style>
标签及其内容,防止执行恶意脚本或处理不必要的样式。 - 去除其他 HTML 标签:将其他 HTML 标签(如
<div>
,<p>
等)通过正则表达式删除,仅保留纯文本。 - 处理不间断空格:将
替换为空格,保证文本格式的清晰性。
这样处理后,你会得到一个干净的文本字符串,适用于进一步的数据处理或展示。
2. 提取图片链接
getImgStr
方法用于从富文本中提取所有图片的 URL。具体步骤如下:
- 正则表达式匹配:使用正则表达式匹配
<img>
标签,并提取其src
属性的值。正则表达式的设计考虑了图片 URL 的引号可能是单引号或双引号的情况。 - 返回链接列表:将提取出的图片 URL 存储到一个列表中,方便后续使用。
使用示例
以下是如何使用 HtmlTagUtil
类的示例代码:
public class Main {
public static void main(String[] args) {
String htmlContent = "<html><body><h1>Hello World!</h1><img src='http://example.com/image.jpg' alt='example image' /><p>Some text.</p></body></html>";
// 去除 HTML 标签
String cleanText = HtmlTagUtil.removeHtmlTag(htmlContent);
System.out.println("Clean Text: " + cleanText);
// 提取图片链接
List<String> imgUrls = HtmlTagUtil.getImgStr(htmlContent);
System.out.println("Image URLs: " + imgUrls);
}
}
总结
HtmlTagUtil
类是处理 HTML 内容时的一个实用工具,它帮助我们轻松去除不需要的 HTML 标签并提取图片链接。无论你是在爬取网页数据,还是处理富文本输入,这个工具类都能提高你的工作效率。希望这个工具对你有所帮助,欢迎在实践中进一步改进和优化!
好,以上就是全部内容,能坚持看到这里,你一定很有收获,那么动一动拿offer的小手,点个赞再走吧,听说这么做的人2024年都交了好运!!!!