高效处理 HTML(富文本输入框) 内容的 Java 工具类

一个努力成长的咸鱼

于 2024-08-30 14:50:40 发布

阅读量251

点赞数 10

文章标签： java 开发语言

本文链接：https://blog.csdn.net/l674582579/article/details/141718183

版权

在处理 HTML 内容时，常常会遇到需要从富文本中提取信息或清理不必要标签的需求。无论是爬取网页数据还是处理用户生成的内容，掌握如何高效地处理 HTML 内容都是至关重要的。今天，我将分享一个简单而实用的 Java 工具类，它能够帮助你轻松地去除 HTML 标签并提取图片链接。

工具类概述

我们编写的 HtmlTagUtil 类包含两个主要功能：

去除 HTML 标签：从字符串中删除所有 HTML 标签，包括 <script> 和 <style> 标签，留下纯文本。
提取图片链接：从富文本中提取所有图片的 src 属性值，即图片的 URL。

代码实现：

import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class HtmlTagUtil {

    private static final Pattern P_IMAGE = Pattern.compile("<img[^>]+src\\s*=\\s*['\"]([^'\"]+)['\"][^>]*>", Pattern.CASE_INSENSITIVE);

    /**
     * 去除富文本编辑器标签
     *
     * @param inputString 含HTML标签的字符串
     * @return 纯文本字符串
     */
    public static String removeHtmlTag(String inputString) {
        if (inputString == null) {
            return null;
        }
        String htmlStr = inputString;
        try {
            // 去除 script 和 style 标签
            htmlStr = htmlStr.replaceAll("(?i)<script.*?>.*?</script>", "");
            htmlStr = htmlStr.replaceAll("(?i)<style.*?>.*?</style>", "");
            // 去除其他 HTML 标签
            htmlStr = htmlStr.replaceAll("(?i)<[^>]+>", "");
            // 去除不间断空格
            htmlStr = htmlStr.replace("&nbsp;", " ");
        } catch (Exception e) {
            e.printStackTrace();
        }
        return htmlStr.trim();
    }

    /**
     * 提取富文本中图片地址
     *
     * @param richText 富文本字符串
     * @return 图片地址列表
     */
    public static List<String> getImgStr(String richText) {
        List<String> list = new ArrayList<>();
        Matcher matcher = P_IMAGE.matcher(richText);
        while (matcher.find()) {
            list.add(matcher.group(1));
        }
        return list;
    }
}

功能解析

1. 去除 HTML 标签

removeHtmlTag 方法旨在从包含 HTML 标签的字符串中提取纯文本。具体实现步骤如下：

去除 <script> 和 <style> 标签：使用正则表达式匹配并删除 <script> 和 <style> 标签及其内容，防止执行恶意脚本或处理不必要的样式。
去除其他 HTML 标签：将其他 HTML 标签（如 <div>, <p> 等）通过正则表达式删除，仅保留纯文本。
处理不间断空格：将   替换为空格，保证文本格式的清晰性。

这样处理后，你会得到一个干净的文本字符串，适用于进一步的数据处理或展示。

2. 提取图片链接

getImgStr 方法用于从富文本中提取所有图片的 URL。具体步骤如下：

正则表达式匹配：使用正则表达式匹配 <img> 标签，并提取其 src 属性的值。正则表达式的设计考虑了图片 URL 的引号可能是单引号或双引号的情况。
返回链接列表：将提取出的图片 URL 存储到一个列表中，方便后续使用。

使用示例

以下是如何使用 HtmlTagUtil 类的示例代码：

public class Main {
    public static void main(String[] args) {
        String htmlContent = "<html><body><h1>Hello World!</h1><img src='http://example.com/image.jpg' alt='example image' /><p>Some text.</p></body></html>";

        // 去除 HTML 标签
        String cleanText = HtmlTagUtil.removeHtmlTag(htmlContent);
        System.out.println("Clean Text: " + cleanText);

        // 提取图片链接
        List<String> imgUrls = HtmlTagUtil.getImgStr(htmlContent);
        System.out.println("Image URLs: " + imgUrls);
    }
}

总结

HtmlTagUtil 类是处理 HTML 内容时的一个实用工具，它帮助我们轻松去除不需要的 HTML 标签并提取图片链接。无论你是在爬取网页数据，还是处理富文本输入，这个工具类都能提高你的工作效率。希望这个工具对你有所帮助，欢迎在实践中进一步改进和优化！

好，以上就是全部内容，能坚持看到这里，你一定很有收获，那么动一动拿offer的小手，点个赞再走吧，听说这么做的人2024年都交了好运!!!!

一个努力成长的咸鱼

关注

10
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
高效处理 HTML(富文本输入框) 内容的 Java 工具类

我们编写的去除 HTML 标签：从字符串中删除所有 HTML 标签，包括<script>和<style>标签，留下纯文本。提取图片链接：从富文本中提取所有图片的src属性值，即图片的 URL。类是处理 HTML 内容时的一个实用工具，它帮助我们轻松去除不需要的 HTML 标签并提取图片链接。无论你是在爬取网页数据，还是处理富文本输入，这个工具类都能提高你的工作效率。希望这个工具对你有所帮助，欢迎在实践中进一步改进和优化！!!!
复制链接

扫一扫