java中Url处理

在开发爬虫的过程中会解析出Url地址,因为不同网站的不同风格,这些Url有些是相对路径,有些是绝对路径,有些是广告链接。
我们需要统一处理这些新的额Url

1.过滤Url
假如我们想只采集一个网站的信息,就需要把和这个网站有关的Url放入queue
一般的方法是Regex
根据网站Url的特点编写,逐一匹配过滤Url。

2.相对地址转绝对地址

有些网站的Url采用相对地址,有些是绝对地址,绝对地址可以直接放入queue,相对地址需要解析出之后转换成绝对地址,还有些网站会两种Url都存在,这需要我们判断转化。

根据上边思路,还可以用正则表达式,这里另一种方法,Java.net
中有两个类,URI\URL
我们可以使用URL去处理网页地址,比直接采用String要方便些,URI中有一个判断绝对路径和相对路径的方法

isAbsolute
public boolean isAbsolute()判断此 URI 是否为绝对的。
当且仅当 URI 具有方案组成部分时,它才是绝对的。

返回:
当且仅当此 URI 是绝对的,才返回 true

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值