Scrapy爬虫urlparse之urljoin() 必备

首先导入模块,用help查看相关文档

>>> from urllib import parse
>>> help(parse.urljoin)
Help on function urljoin in module urlparse:

urljoin(base, url, allow_fragments=True)
    Join a base URL and a possibly relative URL to form an absolute
    interpretation of the latter.

意思就是将基地址与一个相对地址形成一个绝对地址,然而讲的太过抽象

>>> urljoin("http://www.google.com/1/aaa.html","bbbb.html")
'http://www.google.com/1/bbbb.html'
>>> urljoin("http://www.google.com/1/aaa.html","2/bbbb.html")
'http://www.google.com/1/2/bbbb.html'
>>> urljoin("http://www.google.com/1/aaa.html","/2/bbbb.html")
'http://www.google.com/2/bbbb.html'
>>> urljoin("http://www.google.com/1/aaa.html","http://www.google.com/3/ccc.html")
'http://www.google.com/3/ccc.html'
>>> urljoin("http://www.google.com/1/aaa.html","http://www.google.com/ccc.html")
'http://www.google.com/ccc.html'
>>> urljoin("http://www.google.com/1/aaa.html","javascript:void(0)")
'javascript:void(0)'

规律不难发现,但是并不是万事大吉了,还需要处理特殊情况,如链接是其本身,链接中包含无效字符等

url = urljoin("****","****")<br><br>### find()查找字符串函数,如果查到:返回查找到的第一个出现的位置。否则,返回-1<br>if url.find("'")!=-1:<br>    continue  <br><br>### 只取井号前部分<br>url = url.split('#')[0]<br><br>### 这个isindexed()是我自己定义的函数,判断该链接不在保存链接的数据库中<br>if url[0:4]=='http' and not self.isindexed(url):<br><br>    ###newpages = set(),无序不重复元素集<br>    newpages.add(url)

原文地址:https://www.cnblogs.com/phil-chow/p/5347947.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值