高效处理 HTML(富文本输入框) 内容的 Java 工具类

在处理 HTML 内容时,常常会遇到需要从富文本中提取信息或清理不必要标签的需求。无论是爬取网页数据还是处理用户生成的内容,掌握如何高效地处理 HTML 内容都是至关重要的。今天,我将分享一个简单而实用的 Java 工具类,它能够帮助你轻松地去除 HTML 标签并提取图片链接。

工具类概述

我们编写的 HtmlTagUtil 类包含两个主要功能:

  1. 去除 HTML 标签:从字符串中删除所有 HTML 标签,包括 <script> 和 <style> 标签,留下纯文本。
  2. 提取图片链接:从富文本中提取所有图片的 src 属性值,即图片的 URL。

代码实现:

import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class HtmlTagUtil {

    private static final Pattern P_IMAGE = Pattern.compile("<img[^>]+src\\s*=\\s*['\"]([^'\"]+)['\"][^>]*>", Pattern.CASE_INSENSITIVE);

    /**
     * 去除富文本编辑器标签
     *
     * @param inputString 含HTML标签的字符串
     * @return 纯文本字符串
     */
    public static String removeHtmlTag(String inputString) {
        if (inputString == null) {
            return null;
        }
        String htmlStr = inputString;
        try {
            // 去除 script 和 style 标签
            htmlStr = htmlStr.replaceAll("(?i)<script.*?>.*?</script>", "");
            htmlStr = htmlStr.replaceAll("(?i)<style.*?>.*?</style>", "");
            // 去除其他 HTML 标签
            htmlStr = htmlStr.replaceAll("(?i)<[^>]+>", "");
            // 去除不间断空格
            htmlStr = htmlStr.replace("&nbsp;", " ");
        } catch (Exception e) {
            e.printStackTrace();
        }
        return htmlStr.trim();
    }

    /**
     * 提取富文本中图片地址
     *
     * @param richText 富文本字符串
     * @return 图片地址列表
     */
    public static List<String> getImgStr(String richText) {
        List<String> list = new ArrayList<>();
        Matcher matcher = P_IMAGE.matcher(richText);
        while (matcher.find()) {
            list.add(matcher.group(1));
        }
        return list;
    }
}

功能解析

1. 去除 HTML 标签

removeHtmlTag 方法旨在从包含 HTML 标签的字符串中提取纯文本。具体实现步骤如下:

  • 去除 <script> 和 <style> 标签:使用正则表达式匹配并删除 <script> 和 <style> 标签及其内容,防止执行恶意脚本或处理不必要的样式。
  • 去除其他 HTML 标签:将其他 HTML 标签(如 <div><p> 等)通过正则表达式删除,仅保留纯文本。
  • 处理不间断空格:将 &nbsp; 替换为空格,保证文本格式的清晰性。

这样处理后,你会得到一个干净的文本字符串,适用于进一步的数据处理或展示。

2. 提取图片链接

getImgStr 方法用于从富文本中提取所有图片的 URL。具体步骤如下:

  • 正则表达式匹配:使用正则表达式匹配 <img> 标签,并提取其 src 属性的值。正则表达式的设计考虑了图片 URL 的引号可能是单引号或双引号的情况。
  • 返回链接列表:将提取出的图片 URL 存储到一个列表中,方便后续使用。

使用示例

以下是如何使用 HtmlTagUtil 类的示例代码:

public class Main {
    public static void main(String[] args) {
        String htmlContent = "<html><body><h1>Hello World!</h1><img src='http://example.com/image.jpg' alt='example image' /><p>Some text.</p></body></html>";

        // 去除 HTML 标签
        String cleanText = HtmlTagUtil.removeHtmlTag(htmlContent);
        System.out.println("Clean Text: " + cleanText);

        // 提取图片链接
        List<String> imgUrls = HtmlTagUtil.getImgStr(htmlContent);
        System.out.println("Image URLs: " + imgUrls);
    }
}

总结

HtmlTagUtil 类是处理 HTML 内容时的一个实用工具,它帮助我们轻松去除不需要的 HTML 标签并提取图片链接。无论你是在爬取网页数据,还是处理富文本输入,这个工具类都能提高你的工作效率。希望这个工具对你有所帮助,欢迎在实践中进一步改进和优化!

好,以上就是全部内容,能坚持看到这里,你一定很有收获,那么动一动拿offer的小手,点个赞再走吧,听说这么做的人2024年都交了好运!!!!

  • 10
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值