java 正则表达式 去除html中的script标签及其内容

一:背景

前段时间利用爬虫,爬取了网页中的数据,爬取成功后在使用时,发现爬取的html中有一段:

<script language="javascript">getClickTimes(3595155,1507573501,"wbnewsfile","attach")</script>

二:编写代码   

爬取的html单纯只是展示样式及文字,要求把这段代码去掉

        String regex = "<script.*?>(.*?)</script>";
        //elements.toString():代表去除的html,使用时需替换自己的
        String string = elements.toString();
        Pattern p_script = Pattern.compile(regex, Pattern.CASE_INSENSITIVE);
        Matcher m_script = p_script.matcher(string);
        string = m_script.replaceAll("");

测试:

    public static void main(String[] args) throws Exception {
        String string = "测<script s>ss</script><script s>ss</script><script s>ss</script>试";
        String regex = "<script.*?>(.*?)</script>";
        Pattern p_script = Pattern.compile(regex, Pattern.CASE_INSENSITIVE);
        Matcher m_script = p_script.matcher(string);
        string = m_script.replaceAll("");
        System.out.println(string);
    }

控制台:

ps : 我这不需要这个标签所有把他替换为空

       这个也不只是script标签,其他的自行测试

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值