ptyhon 检查采集的URL是否完整

 传入爬虫获取的URL地址参数 用于补全URL地址

links = '/ABC/BCD.HTML'

Inspect_url(links)


def Inspect_url(links):  # 检查URL地址是否完整
    url = 'https://baidu.com'  需改为采集页面的地址的前缀
    print(len(links))
    if len(links) > 1:
        new_links = []
        for link in links:
            print(link)
            # 判断是否为相对地址
            if not link.startswith(('http://', 'https://')):
                # 补全相对地址
                full_url = url + link
                new_links.append(full_url)
                print(f'补全后的绝对地址: {full_url}')
            else:
                new_links.append(link)
                # 已经是绝对地址,直接打印
                print(f'绝对地址: {link}')
        return new_links
    elif len(links) == 1:
        print('等于1')
        link = links[0]
        if not link.startswith(('http://', 'https://')):
            full_url = url + link
            print(f'补全后的绝对地址: {full_url}')
            return full_url
        else:
            return links[0]
    elif len(links) < 1:
        links = '空'
        return links
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值