python 解析页面内嵌链接,并访问是否正常

# coding=utf-8

import time
import urllib.request

from bs4 import BeautifulSoup

t = time.time()


def scanpage(url, suburl):
    websiteurl = url
    t = time.time()
    n = 0
    html = urllib.request.urlopen(websiteurl).read()
    soup = BeautifulSoup(html, "lxml")
    Upageurls = {}
    pageurls = soup.find_all("a", href=True)
    for links in pageurls:
        # print(links.get("href"))
        if suburl in links.get("href") and links.get("href") not in Upageurls:
            Upageurls[links.get("href")] = 0
    for links in Upageurls.keys():
        print(n, links, end='')
        try:
            urllib.request.urlopen(links).getcode()
        except:
            print("connect failed")
        else:
            t2 = time.time()
            print(urllib.request.urlopen(links).getcode(), ' ', end='执行时间为: ')
            t1 = time.time()
            print(round((t1 - t2), 2))
        n += 1
    print("total is " + repr(n) + " links, 供执行时间为: ", round((time.time() - t), 2), 's')


scanpage("http://news.baidu.com", "baidu.com")

结果:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值