提取新闻正文

参考了好多人的算法,但感觉太深奥了,自己写了一个,感觉效果还可以,不过还是有很多杂质在里面

成功率没有测试过,以后校验。

    public static String extractContent(String url) {
        Document document = JsoupUitl.readUrl(url);
        String orderHtml = document.toString().toLowerCase();
        orderHtml = orderHtml.replaceAll("(?is)<!DOCTYPE.*?>", "");
        orderHtml = orderHtml.replaceAll("(?is)<!--.*?-->", ""); // remove html
        orderHtml = orderHtml.replaceAll("(?is)<script.*?>.*?</script>", ""); // remove
        orderHtml = orderHtml.replaceAll("(?is)<style.*?>.*?</style>", ""); // remove
        orderHtml = orderHtml.replaceAll("(?is)<a.*?>.*?</a>", ""); // remove
        orderHtml = orderHtml.replaceAll("&.{2,5};|&#.{2,5};", "");
        orderHtml = orderHtml.replaceAll("<(?!\\/?(td|tr|img|br|p)).*?>", "");
        String[] eleList = orderHtml.split("\n");
        StringBuffer sb = new StringBuffer();
        for (String string : eleList) {
            if (string.trim().length() > 20) {
                if (string.contains("></p>")) {
                } else {
                    sb.append(string);
                }
            }
        }

        orderHtml = sb.toString();
        // System.out.println("=====================================");
        // System.out.println(Jsoup.parse(orderHtml));
        return orderHtml;

    }

测试例子,感觉效果还不错:

 

 

 

 

 

转载于:https://www.cnblogs.com/tomcattd/p/3511461.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值