JAVA过滤标签,提取网页中纯文本

JAVA过滤标签,提取网页中纯文本(网页代码不能直接复制解决办法)

1.F12打开网页控制台,选中对应代码块的父级标签

在这里插入图片描述
2.利用jquery获取元素
在这里插入图片描述
3.直接复制上面图片内文字到idea中(idea提前编写过滤网页标签代码,如下图)

在这里插入图片描述


public class JSDemo {
    private String text;

    public void setText(String text){
        this.text =text;
    }

    public String getText(){
        if (this.text != null && this.text != "") {
            String msg = this.text.replaceAll("<.+?>|&.+?;",""); //执行替换成空字符
            msg = msg.replaceAll("\\s/g",""); //去掉所有的空格(中文空格、英文空格都会被替换)
            msg = msg.replaceAll("/[\r\n]/g",""); //去掉所有的换行符
            return msg; //获文本文字内容的前100个字符
        } else {
            return "";
        }
    }
}

4,编写测试类,如下图(注意测试类要加public,否则引入@test注解后,左边没有运行按钮)

在这里插入图片描述

public class JSDemoTest {

    @Test
    public void test01(){
        String text = "<code class=\"language-bat\"><span class=\"c1\">rem 执行后你可能需要把固定在任务栏上的图标取消固定,关闭程序再打开后才会看到效果,重建图标缓存需要一些时间,耐心等待</span>\n" +
                "<span class=\"c1\">rem 强制杀死 Windows 资源管理器</span>\n" +
                "taskkill /f /im explorer.exe\n" +
                "<span class=\"c1\">rem 清理系统图标缓存数据库</span>\n" +
                "attrib -h -s -r <span class=\"s2\">\"</span><span class=\"nv\">%userprofile%</span><span class=\"s2\">\\AppData\\Local\\IconCache.db\"</span>\n" +
                "<span class=\"k\">del</span> /f <span class=\"s2\">\"</span><span class=\"nv\">%userprofile%</span><span class=\"s2\">\\AppData\\Local\\IconCache.db\"</span>\n" +
                "attrib /s /d -h -s -r <span class=\"s2\">\"</span><span class=\"nv\">%userprofile%</span><span class=\"s2\">\\AppData\\Local\\Microsoft\\Windows\\Explorer\\*\"</span>\n" +
                "<span class=\"k\">del</span> /f <span class=\"s2\">\"</span><span class=\"nv\">%userprofile%</span><span class=\"s2\">\\AppData\\Local\\Microsoft\\Windows\\Explorer\\thumbcache_32.db\"</span>\n" +
                "<span class=\"k\">del</span> /f <span class=\"s2\">\"</span><span class=\"nv\">%userprofile%</span><span class=\"s2\">\\AppData\\Local\\Microsoft\\Windows\\Explorer\\thumbcache_96.db\"</span>\n" +
                "<span class=\"k\">del</span> /f <span class=\"s2\">\"</span><span class=\"nv\">%userprofile%</span><span class=\"s2\">\\AppData\\Local\\Microsoft\\Windows\\Explorer\\thumbcache_102.db\"</span>\n" +
                "<span class=\"k\">del</span> /f <span class=\"s2\">\"</span><span class=\"nv\">%userprofile%</span><span class=\"s2\">\\AppData\\Local\\Microsoft\\Windows\\Explorer\\thumbcache_256.db\"</span>\n" +
                "<span class=\"k\">del</span> /f <span class=\"s2\">\"</span><span class=\"nv\">%userprofile%</span><span class=\"s2\">\\AppData\\Local\\Microsoft\\Windows\\Explorer\\thumbcache_1024.db\"</span>\n" +
                "<span class=\"k\">del</span> /f <span class=\"s2\">\"</span><span class=\"nv\">%userprofile%</span><span class=\"s2\">\\AppData\\Local\\Microsoft\\Windows\\Explorer\\thumbcache_idx.db\"</span>\n" +
                "<span class=\"k\">del</span> /f <span class=\"s2\">\"</span><span class=\"nv\">%userprofile%</span><span class=\"s2\">\\AppData\\Local\\Microsoft\\Windows\\Explorer\\thumbcache_sr.db\"</span>\n" +
                "<span class=\"c1\">rem 清理 系统托盘记忆的图标</span>\n" +
                "<span class=\"k\">echo</span> y<span class=\"p\">|</span>reg delete <span class=\"s2\">\"HKEY_CLASSES_ROOT\\Local Settings\\Software\\Microsoft\\Windows\\CurrentVersion\\TrayNotify\"</span> /v IconStreams\n" +
                "<span class=\"k\">echo</span> y<span class=\"p\">|</span>reg delete <span class=\"s2\">\"HKEY_CLASSES_ROOT\\Local Settings\\Software\\Microsoft\\Windows\\CurrentVersion\\TrayNotify\"</span> /v PastIconsStream\n" +
                "<span class=\"c1\">rem 启动 Windows 资源管理器</span>\n" +
                "<span class=\"k\">start</span> explorer</code>";
        JSDemo jsDemo = new JSDemo();
        jsDemo.setText(text);
        System.out.println(jsDemo.getText());;
    }

}

5.控制台成功打印出源代码,直接复制即可
在这里插入图片描述

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值