java后台去除html中的style样式代码

从网页获取的自己关心的内容后,有些标签会有内联样式,例如

<span style="font-size:16px;font-family:'Microsoft YaHei';">

如何只要span而不要style

style

其他的div什么的都一样。

这个样式是包含(前面有个空格) style=”中间任意多个字符串后面一个”。

来看正则表达式的写法

String regEx = " style=\"(.*?)\"";

使用到的正则规则

在这里插入图片描述

关键代码

    /**
     * 清除公告中的style
     *
     * @param content 公告内容
     * @return 字符串结果集
     */
    public static String removeContentStyle(String content) {
        String regEx = " style=\'(.*?)\'";
        Pattern p = Pattern.compile(regEx);
        Matcher m = p.matcher(content);
        if (m.find()) {
            content = m.replaceAll("");
        }
        String regEx2 = " style=\"([\\s\\S]*?)\"";
        Pattern p2 = Pattern.compile(regEx2);
        Matcher m2 = p2.matcher(content);
        if (m2.find()) {
            content = m2.replaceAll("");
        }
        String regEx3 = " border=\"(.*?)\"";
        Pattern p3 = Pattern.compile(regEx3);
        Matcher m3 = p3.matcher(content);
        if (m3.find()) {
            content = m3.replaceAll(" border=\"0\" ");
        }
       /* String regEx_style = "<style[^>]*?>[\\s\\S]*?<\\/style>"; //定义style的正则表达式
        Pattern p3 = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);
        Matcher m3 = p3.matcher(content);
        content = m3.replaceAll("");*/
        /*String regEx_html = "<[^>]+>"; //定义HTML标签的正则表达式
        Pattern p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);
        Matcher m_html = p_html.matcher(content);
        content = m_html.replaceAll(""); //过滤html标签*/
        return content;
    }

参考链接:https://blog.csdn.net/frankcheng5143/article/details/52815625

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值