获取网站所有链接

最新推荐文章于 2022-03-18 15:08:51 发布

ouyzc13796

最新推荐文章于 2022-03-18 15:08:51 发布

阅读量394

点赞数

本文链接：https://blog.csdn.net/usb121212/article/details/103733620

版权

import requests
from bs4 import BeautifulSoup


def getHtmlTree(url):
    response = requests.get(url)
    htmlTree = BeautifulSoup(response.text, 'lxml')
    return htmlTree

def getUrl(url):
    print(execurl)
    urls = []
    htmlTree = getHtmlTree(url)
    for a in htmlTree.find_all('a'):
        if (http in a['href']):
            urls.append(a['href'])
    for x in urls:
        if (x in execurl):
            pass
        else:
            try:
                execurl.append(x)
                getUrl(x)
            except Exception as err:
                pass

if __name__ == '__main__':
    url = 'http://www.jxjsxy.edu.cn/news-list-zhaojshengfzhuanflany-1.html'
    http = 'http'
    execurl = ['url']
    getUrl(url)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ouyzc13796

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
获取网站所有链接

import requestsfrom bs4 import BeautifulSoupdef getHtmlTree(url): response = requests.get(url) htmlTree = BeautifulSoup(response.text, 'lxml') return htmlTreedef getUrl(url): pri...
复制链接

扫一扫