python 实现爬取网站下所有URL(2)

HUAXIAL

于 2024-05-16 05:50:15 发布

阅读量975

点赞数 22

分类专栏：程序员文章标签： python 学习面试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/HUAXIAL/article/details/138938028

版权

程序员专栏收录该内容

516 篇文章 5 订阅

订阅专栏

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

def get_first_url():

list_href = []

reaponse = requests.get(“http://www.xxx.com.cn”, headers=headers)

soup = Bs4(reaponse.text, “lxml”)

urls_li = soup.select(“#mainmenu_top > div > div > ul > li”)

for url_li in urls_li:

urls = url_li.select(“a”)

for url in urls:

url_href = url.get(“href”)

list_href.append(head_url+url_href)

out_url = list(set(list_href))

for reg in out_url:

print(reg)

遍历第一次返回的结果：

从第二步获取URL的基础上，遍历请求每个页面，获取页面中的URL链接，过滤掉不需要的信息

具体代码如下：

‘’’

遇到问题没人解答？小编创建了一个Python学习交流QQ群：778463939

寻找有志同道合的小伙伴，互帮互助,群里还有不错的视频学习教程和PDF电子书！

‘’’

def get_next_url(urllist):

url_list = []

for url in urllist:

response = requests.get(url,headers=headers)

soup = Bs4(response.text,“lxml”)

urls = soup.find_all(“a”)

if urls:

for url2 in urls:

url2_1 = url2.get(“href”)

if url2_1:

if url2_1[0] == “/”:

url2_1 = head_url + url2_1

url_list.append(url2_1)

if url2_1[0:24] == “http://www.xxx.com.cn”:

url2_1 = url2_1

url_list.append(url2_1)

else:

pass

else:

pass

else:

pass

else:

pass

url_list2 = set(url_list)

for url_ in url_list2:

res = requests.get(url_)

if res.status_code ==200:

print(url_)

print(len(url_list2))

递归循环遍历：

递归实现爬取所有url，在get_next_url()函数中调用自身，代码如下：

get_next_url(url_list2)

全部代码如下：

import requests

from bs4 import BeautifulSoup as Bs4

head_url = “http://www.xxx.com.cn”

headers = {

“User-Agent”: “Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36”

}

def get_first_url():

list_href = []

reaponse = requests.get(head_url, headers=headers)

soup = Bs4(reaponse.text, “lxml”)

urls_li = soup.select(“#mainmenu_top > div > div > ul > li”)

for url_li in urls_li:

urls = url_li.select(“a”)

for url in urls:

url_href = url.get(“href”)

list_href.append(head_url+url_href)

out_url = list(set(list_href))

return out_url

def get_next_url(urllist):

url_list = []

for url in urllist:

response = requests.get(url,headers=headers)

soup = Bs4(response.text,“lxml”)

urls = soup.find_all(“a”)

if urls:

最后

不知道你们用的什么环境，我一般都是用的Python3.6环境和pycharm解释器，没有软件，或者没有资料，没人解答问题，都可以免费领取（包括今天的代码），过几天我还会做个视频教程出来，有需要也可以领取~

给大家准备的学习资料包括但不限于：

Python 环境、pycharm编辑器/永久激活/翻译插件

python 零基础视频教程

Python 界面开发实战教程

Python 爬虫实战教程

Python 数据分析实战教程

python 游戏开发实战教程

Python 电子书100本

Python 学习路线规划

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

关注

22
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。