网络爬虫2-bs4

JesonNb

已于 2024-04-20 21:00:06 修改

阅读量298

点赞数 3

文章标签：爬虫 python beautifulsoup

于 2024-04-20 20:58:15 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/JesonNb/article/details/138011327

版权

第5关：爬取单页多个div标签的信息

任务描述

本关任务：改进上一关的代码。爬取湖南大学讲座网页的多个讲座信息，存储在二维列表 jzxx 中。

湖南大学讲座信息的网址为 https://www.hnu.edu.cn/xysh/xshd.htm 。

相关知识

1. find_all 函数

通过 BeautifulSoup 的 find_all(name，attr) 方法，可以找到符合条件的多个标签，将多个标签的内容返回为一个列表

lb=bg.find_all("div",class="xinwen-wen")

找到网页的所有 class 属性为 xinwen-wen 的 div 标签，存入列表 lb 。

2. 列表的操作

对于得到的多个标签的列表，使用 for 循环，可以依次访问每个标签，使用 find 函数找出其时间、标题和地点的文本，加入到列表，再加入二维列表 jzxx 中。

编程要求

根据提示，在右侧编辑器补充代码，爬取湖南大学讲座网页的多个讲座信息，存储在二维列表 jzxx 中

代码

import requests

from bs4 import BeautifulSoup

url = 'https://www.hnu.edu.cn/xysh/xshd.htm'

r = requests.get(url)

r.encoding = 'utf-8'

#代码开始

soup = BeautifulSoup(r.text, "html.parser")

xw = soup.find_all("div", class_="xinwen-wen")

jzxx=[]

for i in range(len(xw)):

jzxxx = []

jzsj = xw[i].find("div", class_="xinwen-sj-top").text.strip()

jzbt = xw[i].find("div", class_="xinwen-wen-bt").text.strip()

jzdd = xw[i].find("div", class_="xinwen-wen-zy").text.strip()

jzxxx.append(jzsj)

jzxxx.append(jzbt)

jzxxx.append(jzdd)

jzxx.append(jzxxx)

# print(jzxxx)

# print(jzxx)

f1=open("jzxx2.txt","w")

for xx in jzxx:

f1.write(",".join(xx)+"\n")

f1.close()

第6关：爬取多个网页的多个div标签的信息

任务描述

本关任务：修改上关的程序，爬取从第 80 页到 85 页中的讲座信息，存放在 jz.txt 文件中每行显示一个讲座信息，讲座时间、讲座标题和主讲人地点用逗号分隔。

如何将信息写入文件

首先以 w 方式打开文件，再通过文件对象的 write 方法将字符串写入文件。

代码

import requests

from bs4 import BeautifulSoup

f1 = open("jz.txt", "w", encoding="utf8")

# 代码开始

for i in range(80, 86):

respose = requests.get(f'https://www.hnu.edu.cn/xysh/xshd/{i}.htm')

respose.encoding = 'utf-8'

content = respose.text

soup = BeautifulSoup(content, 'html.parser')

all_div = soup.findAll('div', class_='xinwen-wen')

for div in all_div:

jzsj = div.find('div', class_='xinwen-sj-top').string.strip()

jzbt = div.find('div', attrs={'class', 'xinwen-wen-bt'}).string.strip()

jzdd = div.find('div', attrs={'class', 'xinwen-wen-zy'}).text.strip()

f1.write(jzsj + ',' + jzbt + ',' + jzdd + '\n')

# 代码结束

f1.close()

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
网络爬虫2-bs4

本关任务：改进上一关的代码。爬取湖南大学讲座网页的多个讲座信息，存储在二维列表jzxx中。湖南大学讲座信息的网址为。
复制链接

扫一扫

JesonNb CSDN认证博客专家 CSDN认证企业博客

码龄3年

9: 原创

117万+: 周排名

12万+: 总排名

4967: 访问

: 等级

167: 积分

128: 粉丝

77: 获赞

1: 评论

77: 收藏

私信

关注

热门文章

最新评论

文件操作-读写文件
CSDN-Ada助手: 恭喜用户写了第三篇博客！文件操作-读写文件是一个非常实用的主题，能够帮助读者更好地掌握文件操作的技巧。希望用户能够继续保持创作的热情，不断分享更多有价值的内容给大家。下一步可以考虑深入探讨文件操作的高级应用或者结合实际案例进行讲解，这样可以让读者更容易理解和应用所学到的知识。期待用户的下一篇作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
正则表达式
CSDN-Ada助手: 恭喜作者发布了第四篇博客《正则表达式》，内容丰富实用，让读者受益匪浅。希望作者能继续保持创作的热情和努力，为读者带来更多有价值的内容。建议下一步可以尝试写一些实例分析或者进阶应用，让读者更深入地了解正则表达式的使用技巧。期待作者更上一层楼，再接再厉！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。