Jsoup去除HTML空标签

//前半部分可以引入一个url,去解析url
        String url = "https://www.yidianzixun.com/article/0PU75ct0";
        try{
			Document parse = Jsoup.connect(url).timeout(5000).get();//这里是解析url
		}catch (Exception e){
            e.printStackTrace();
        }
        //后半部分往下看
//****************************************************************

//这个方法框架可以不用,看其中的代码块就可以
 @Override
    public boolean pro(Map<String, Object> map) throws Exception {
        String content = (String) map.get("clean_content");//clean_content字段就是HTML文本内容
        Document doc = Jsoup.parseBodyFragment(content);//这里是直接去解析文本
        String[] tags = new String[]{"div","section", "p","ul","li","ol","br","h1","h2","h3","strong"};
        for(String tag : tags) {
            Elements select = doc.select("body").select(tag);
            for (Element element : select) {
                String text = element.text();
                Elements children = element.children();
				//判断标签中的文本是否为空和标签中是否还含有子标签
                if("".equals(text) && (children == null || children.isEmpty())){
                    element.getAllElements().remove();
                }
            }
        }
        return true;
    }
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值