webmagic 爬虫爬取某些网址URL的Regex过滤不生效

最近使用Webmagic进行过滤url的时候:如下格式的

page.addTargetRequests(page.getHtml().links().regex("(https://github\\.com/[\\w\\-]+/[\\w\\-]+)").all());
        page.addTargetRequests(page.getHtml().links().regex("(https://github\\.com/[\\w\\-])").all());

总是无法正确过滤到url。

各种问题处理。

跟中Pattern,match,find()。都没找到问题所在。

2020年2月22日17:49:55今天大半天。处理。在偶然间,跟踪到匹配的时候。

发现了regex的表达式,在匹配的地方,竟然发生了变化。

https://github\\.com/[\\w\\-] 这种在Webmagic中生效

但在SpringCloud环境中不生效。

调整格式后发现:https:\\/\\/github\\.com\\/[\\w\\-]

结果Debug的时候竟然出现了:https:\\\\/\\\\/github\\\\.com\\\\/[\\\\w\\\\-]

到此问题找到了。

所以regex增则表达式,前端存储的时候,仍然按照正常的增则表达式格式来存储。

java会默认进行处理一次。

所以URL的正则表达式格式应该存储为:https:\/\/github\.com\/[\w\-]+
        

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值