Java抽取网页信息

最新推荐文章于 2023-01-03 14:34:52 发布

PengJune

最新推荐文章于 2023-01-03 14:34:52 发布

阅读量1.2k

点赞数

分类专栏： Java 信息抽取文章标签： java regex 正则表达式

本文链接：https://blog.csdn.net/PengJune/article/details/3354884

版权

信息抽取同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

Java

3 篇文章 0 订阅

订阅专栏

使用正则表达式及字符串操作，抽取网页信息

 
  
    /* 去script */
    public static String trimScript(String content) {
        String regEx = "<script[^>]*>[^<]+</script>";
        Pattern p = Pattern.compile(regEx);
        Matcher m = p.matcher(content);
        String result = content;
        if (m.find()) {
            result = m.replaceAll("");
        }
        return result;
    }
    /* 去除注释*/
    public static String trimComment(String content) {
        String regEx = "<!--[^-]*-->";
        Pattern p = Pattern.compile(regEx);
        Matcher m = p.matcher(content);
        String result = content;
        if (m.find()) {
            result = m.replaceAll("");
        }
        return result;
    }
    /* 去除标签 */
    public static String trimTag(String content) {
        String regEx = "<[^>]+>";
        Pattern p = Pattern.compile(regEx);
        Matcher m = p.matcher(content);
        String result = content;
        if (m.find()) {
            result = m.replaceAll("");
        }
        result = result.replace(" ", "").replace(">", "").replace(
                ">", "");
        return result;
    }
    /* 根据起始位置和结束位置，截取字符串 */
    public static String subString(String start, String end, String content) {
        int iStart = content.indexOf(start);
        int iEnd = content.indexOf(end);
        if (iStart < iEnd) {
            return content.substring(iStart, iEnd);
        }
        return null;
    }
 
   
 

PengJune

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Java抽取网页信息

使用正则表达式及字符串操作，抽取网页信息 /* 去script */ public static String trimScript(String content) { String regEx = "]*>[^"; Pattern p = Pattern.compile(regEx); Matcher m = p.m
复制链接

扫一扫