python搜集整个网站的数据

最新推荐文章于 2024-08-09 00:05:44 发布

如意教育

最新推荐文章于 2024-08-09 00:05:44 发布

阅读量844

点赞数

分类专栏： django 文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42557907/article/details/81121861

版权

django 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

直接上代码，从百度开始，爬取所有

import requests
from bs4 import BeautifulSoup
headers={'User-Agent':'........'}#写下你的user-agent
pages=set()
#集合可以去重哦，是最简单的去重方法

def getlinks(url):
         html=requests.get(url,headers=headers)
         selector=BeautifulSoup(html.text,'lxml')
         objs=selector.findAll('a'，href=re.compile('.*?baidu.com.*?'})#我们寻找baidi页面里的所有符合条件的a标签，返回一个列表
         for link in objs:#对列表进行迭代
             if link.attrs['href'] not in pages:#确保遇到新页面，当然我们上面创建了一个空的集合，也可以省略这一步
                 newpage=link.attrs['src']#提取a标签下的url
                 pages.add(newpage)#把url添加到集合里

print('---get a new link---',nwepage)
print('len:',len(pages))

getlinks(newpage)#从新的页面在此开启爬取

url='https://www.baidu.com'

getlinks(url)#运行代码

这段代码很长时间不会停下来，当然你可以在中间添加条件，比如len（pages）>20的时候break。

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。