html转txt(过滤html标签)


import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import java.util.ArrayList;
import java.util.List;
import java.util.function.Function;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * html 转 txt
 * @author chunyang.leng
 * @date 2020/12/16 9:40 上午
 */
public class HtmlToText {
    private static final Logger logger = LoggerFactory.getLogger(HtmlToText.class);

    /**
     * 过滤器
     */
    private static final List<Function<String, String>> PATTERN_FUNCTION = new ArrayList<>();

    static {
        /**
         * script脚本过滤
         */
        Function<String, String> scriptFunction = (input) -> {
            // 定义script的正则表达式{或<script[^>]*?>[//s//S]*?<///script>
            String regEx = "<[//s]*?script[^>]*?>[//s//S]*?<[//s]*?///[//s]*?script[//s]*?>";
            Pattern patternScript = Pattern.compile(regEx, Pattern.CASE_INSENSITIVE);
            Matcher matcherScript = patternScript.matcher(input);
            input = matcherScript.replaceAll(""); // 过滤script标签
            return input;
        };
        PATTERN_FUNCTION.add(scriptFunction);

        /**
         * style标签过滤
         */
        Function<String, String> styleFunction = (input) -> {
            String regEx = "<[//s]*?style[^>]*?>[//s//S]*?<[//s]*?///[//s]*?style[//s]*?>"; // 定义style的正则表达式{或<style[^>]*?>[//s//S]*?<///style>
            Pattern patternStyle = Pattern.compile(regEx, Pattern.CASE_INSENSITIVE);
            Matcher matcherStyle = patternStyle.matcher(input);
            input = matcherStyle.replaceAll(""); // 过滤style标签
            return input;
        };
        PATTERN_FUNCTION.add(styleFunction);

        /**
         * html过滤
         */
        Function<String, String> htmlFunction = (input) -> {
            String regEx = "<[^>]+>"; // 定义HTML标签的正则表达式
            Pattern pHtml = Pattern.compile(regEx, Pattern.CASE_INSENSITIVE);
            Matcher mHtml = pHtml.matcher(input);
            input = mHtml.replaceAll(""); // 过滤html标签
            return input;
        };
        PATTERN_FUNCTION.add(htmlFunction);

        /**
         * html过滤
         */
        Function<String, String> htmlFunction2 = (input) -> {
            String regEx = "<[^>]+";
            Pattern pHtml = Pattern.compile(regEx, Pattern.CASE_INSENSITIVE);
            Matcher mHtml = pHtml.matcher(input);
            input = mHtml.replaceAll(""); // 过滤html标签
            return input;
        };
        PATTERN_FUNCTION.add(htmlFunction2);
    }

    /**
     * html文本转字符串
     *
     * @param html  带有html标签的文本
     * @return 去掉html的内容
     */
    public static String toText(String html) {
        try {
            for (Function<String, String> function : PATTERN_FUNCTION) {
                html = function.apply(html);
            }
            // 清除多余的空格
            return html.replaceAll("\\s*","");
        } catch (Exception e) {
            logger.error("html转text出现异常,输入参数:{},异常:{}", html, e.getMessage());
            return html;
        }
    }
}
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

北漂的菜小白

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值