JAVA解析HTML常见工具类

	/**
     * 获取指定HTML标签的指定属性的值
     *
     * @param html  要匹配的源html
     * @param element 标签名称
     * @param attr    标签的属性名称
     * @return 属性值列表
     */
    public List<String> match(String html, String element, String attr) {
        List<String> imageUrls = new ArrayList<>();
        Document doc = Jsoup.parse(html);
        Elements imgTags = doc.select(element);
        for (Element imgTag : imgTags) {
            String src = imgTag.attr(attr);
            imageUrls.add(src);
        }
        return imageUrls;

	/**
     * 获取指定HTML<a>标签链接和内容值
     *
     * @param html  要匹配的源html
     * @return 属性值列表 Pair<链接url,链接的值>
     */
    public List<Pair<String, String>> matchLink(String html) {
        List<Pair<String, String>> pairList = new ArrayList<>();
        Document doc = Jsoup.parse(html);
        Elements links = doc.select("a");
        for (Element link : links) {
            String href = link.attr("href");
            Node node = link.childNode(0);
            String text = node.toString();
            pairList.add(Pair.of(href, text));
        }
        return pairList;
    }

	/**
     * 获得链接属性参数值
     * @param url url
     * @return String
     */
    public HashMap<String,String> getParamByUrl(String url) {
        HashMap<String, String> map = new HashMap<>();
        url += "&";
        String[] params = url.split("\\?");
        if(params.length <= 1){
            return map;
        }
        String[] queryParams = params[1].split("&");
        for (String queryParam : queryParams) {
            String[] param = queryParam.split("=");
            map.put(param[0],param[1]);
        }
        return map;
    }

    /**
     * 替换链接里的
     * @param link 内容链接
     * @param param 参数名称
     * @param newValue 新值
     * @param connector 连接符
     * @return String
     */
    public String replaceUrl(String link,String param,String newValue,String connector){
        String oldParamValue = "(" + connector + param + "=[^\""+connector+"]*)";
        String newParamValue = connector + param + "=" + newValue;
        return link.replaceAll(oldParamValue, newParamValue);
    }
    }```

  • 12
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值