【爬虫工具方法】根据属性得到一条HTML标签的一个属性值

工具方法:
public static String getValueByKeyInHtml(String src, String key) {
        Pattern pattern = Pattern.compile("(?:" + key + "\\s*=\\s*)" + "['\"](.*?)['\"]");
        Matcher matcher = pattern.matcher(src);
        if (matcher.find()) {
            return matcher.group().replaceAll(key + "\\s*=\\s*", "").replaceAll("\"", "");
        }
        return null;
    }
示例:
NiceUtil.getValueByKeyInHtml("<a href="https://www.baidu.com/">","href");
//会返回 https://www.baidu.com/
正则讲解:

重点是   .*?  的用法。其他都很简单。
关于   .*?  的意思,
. : 任意字符(不包括回车)
*: 零个或任意个
? : 非贪婪模式

所以连起来就是:取尽量少的任意字符。
但它一般不会这么单独写,大多会这么用:
.*?a
意思就是取前面任意长度的字符,到“第一个a” 出现。

以前一直觉得是?加在第二个 ['\"]后面,这是不对的,应该是匹配尽量少的字符,直到 ['\"]出现。

额。不理解的话,就跟我一样就把 .*? 的用法背过吧。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值