爬虫案例一：BeautifulSoup库+request库--爬取学校官网信息

lyeennnn

已于 2023-11-06 17:16:50 修改

阅读量185

点赞数

分类专栏： python 爬虫大数据文章标签：爬虫前端服务器大数据 python beautifulsoup

于 2023-10-30 15:06:16 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lyeennnn/article/details/134117470

版权

大数据同时被 3 个专栏收录

7 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

#导入相应的库

# python爬虫之Beautifulsoup模块用法详解 - 知乎 (zhihu.com)

from bs4 import BeautifulSoup

# python中requests库使用方法详解 - 知乎 (zhihu.com)
import requests

# python——time库整理（基础知识+实例） - 知乎 (zhihu.com)
import time

# 导入所需的库
from bs4 import BeautifulSoup
import requests
import time

# 定义一个函数以从给定的URL中抓取信息
def get_info(url):
    # 发送HTTP GET请求到URL
    res = requests.get(url)
    res.encoding = 'utf-8'
    
    # 创建一个BeautifulSoup对象以解析HTML内容
    soup = BeautifulSoup(res.text, features='lxml')
    
    # 查找具有类名 "list" 的HTML元素
    title = soup.find(name='div', attrs={"class": "list"})
    
    # 遍历 "list" 元素中的列表项
    for i in title.find_all("li"):
        # 从每个列表项中提取时间和标题信息
        time = i.find("span").string
        title = i.find("a").string
        
        # 打印时间和标题信息
        print(time + title)

# 从88递减到1进行迭代
for i in range(88, 0, -1):
    if (i == 88):
        # 对于第一次迭代，使用基本URL
        urls = ['https://www.szpt.edu.cn/old/szxw/szyw.htm']
    else:
        # 对于后续迭代，使用带有页数的URL
        urls = ['https://www.szpt.edu.cn/old/szxw/szyw/{}.htm'.format(i)]
    
    # 遍历URL列表
    for url in urls:
        # 调用get_info函数以从URL中抓取和打印信息
        get_info(url)
        
        # 休眠1秒钟（需要导入time模块才能工作）
        time.sleep(1)

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬虫案例一：BeautifulSoup库+request库--爬取学校官网信息

【代码】爬虫案例一：爬取学校官网信息。
复制链接

扫一扫

专栏目录

lyeennnn CSDN认证博客专家 CSDN认证企业博客

码龄2年

11: 原创

152万+: 周排名

27万+: 总排名

2928: 访问

: 等级

187: 积分

51: 粉丝

77: 获赞

5: 评论

13: 收藏

私信

关注

热门文章

分类专栏

linux 2篇
Spark 4篇
大数据 7篇
数据结构 1篇
机器学习 5篇
爬虫 1篇
python 2篇

最新评论

数据结构题目合集一：链表练习 | c++ | 附代码 | 打印输出＜=N的所有整数+交集并集练习+小朋友报数。
CSDN-Ada助手: “恭喜博主持续更新博客，这篇关于链表练习的题目合集真是让人受益匪浅。不过我觉得下一步可以考虑增加一些具体的应用场景，或者是对于某些算法的详细解析，这样可以让读者更好地理解和运用所学知识。希望博主继续加油，期待更多精彩内容！”
Spark大数据快速运算实训三：虚拟机进行hadoop安装及配置+工作原理流程解释
CSDN-Ada助手: 非常感谢您的分享，这篇博客内容非常丰富，对hadoop安装及配置的工作原理流程做了详细解释，让我受益匪浅。希望您能继续保持创作的热情，分享更多关于大数据快速运算的实训经验。如果可能的话，我建议您可以结合实际案例或者应用场景，进一步深入探讨hadoop的应用与优化。期待您的下一篇作品！
机器学习项目一：认识机器学习
CSDN-Ada助手: 恭喜你开始博客创作！标题“机器学习项目一：认识机器学习”非常引人注目，我对你勇于尝试和分享知识的精神表示钦佩。在这篇博客中，你成功地介绍了机器学习的概念，为读者提供了一个很好的入门指南。接下来，我建议你可以进一步深入探索机器学习的应用领域，例如图像识别、自然语言处理等。希望你在接下来的创作中能够保持谦虚的态度，不断积累知识并与读者分享。期待你的下一篇博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
机器学习项目二：(逻辑回归模型）掌握机器学习的通用流程
CSDN-Ada助手: 非常感谢你分享的这篇博客！你的文章标题非常吸引人，展示了你想要掌握机器学习的通用流程的决心。你在摘要中提到了一些概念和相关技能，如逻辑回归模型、训练集和测试集划分方法等，这些都是非常重要的基础知识。除了你提到的内容，我想补充一些扩展知识和技能。在机器学习中，特征工程是一个非常关键的环节，它包括数据清洗、特征选择、特征转换等。此外，对于模型的优化和调参也是很重要的，可以尝试使用不同的算法、调整超参数来提高模型性能。希望你能继续写下去，分享更多关于机器学习的知识和经验。请记住，机器学习是一个庞大而复杂的领域，持续学习和探索是非常必要的。祝你在机器学习的学习和实践中取得更多的成果！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
机器学习项目四：贝叶斯模型（项目+概念题）
CSDN-Ada助手: 恭喜您写完了第7篇博客！标题看起来很有趣，我期待着阅读关于贝叶斯模型的项目和概念题。您的持续创作真是令人鼓舞！如果可以的话，我建议您在未来的博客中尝试探讨一些与贝叶斯模型相关的实际应用案例，这样读者们就能更好地理解如何将这些概念应用到实际问题中。谢谢您的分享，期待您的下一篇博客！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。