网络爬虫2-bs4

JesonNb

已于 2024-04-20 21:04:05 修改

阅读量683

点赞数 10

文章标签：爬虫 python

于 2024-04-20 20:56:21 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/JesonNb/article/details/138011179

版权

#头歌#

第三关

任务描述

本关任务：根据上个步骤中爬取的表格内容，将城市名称和人口数存放在列表 lb 中，按人口数降序排列后输出。

代码

import requests

from bs4 import BeautifulSoup

url = "https://tjj.hunan.gov.cn/hntj/tjfx/tjgb/pcgbv/202105/t20210519_19079329.html"

r = requests.get(url)

r.encoding = 'utf-8'

soup = BeautifulSoup(r.text,"html.parser")

bg = soup.find('table')

#代码开始

lb = bg.find_all("tr")

citys = {}

for i in range(3,len(lb)):

#print(lb[i])

datas = lb[i].find_all("td")

#print(datas)

str1 = ""

for i in range(0,2):

data = datas[i].find("p").text

str1 += data + ' '

result = str1.split()

citys[result[0]] = int(result[1])

# 按人口数量对城市进行排序

sorted_cities = sorted(citys.items(), key=lambda x: x[1], reverse=True)

# 输出排序后的结果

for city, population in sorted_cities:

print(f"{city} {population}")

第四关

任务描述

本关任务：编写一个爬取湖南大学讲座信息网页的程序。

湖南大学讲座信息的网址为 https://www.hnu.edu.cn/xysh/xshd.htm 。

编写程序，爬取该页第一个讲座的时间、标题、主讲人和地点信息，存储在字符串 jzsj 、jzbt 、jzdd 中，如下所示:

代码

import requests

from bs4 import BeautifulSoup

url = 'https://www.hnu.edu.cn/xysh/xshd.htm'

r = requests.get(url)

r.encoding = 'utf-8'

#代码开始

soup = BeautifulSoup(r.text, "html.parser")

xw = soup.find("div", class_="xinwen-wen")

jzsj = xw.find("div", class_="xinwen-sj-top").text.strip()

# print(jzsj)

jzbt=xw.find("div", class_="xinwen-wen-bt").text.strip()

# print(jzbt)

jzdd=xw.find("div", class_="xinwen-wen-zy").text.strip()

# print(jzdd)

#代码结束

f1=open("jzxx.txt","w")

f1.write(jzsj+"\n")

f1.write(jzbt+"\n")

f1.write(jzdd+"\n")

f1.close()

关注

10
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
网络爬虫2-bs4

头歌#
复制链接

扫一扫

JesonNb CSDN认证博客专家 CSDN认证企业博客

码龄3年

9: 原创

117万+: 周排名

12万+: 总排名

4993: 访问

: 等级

167: 积分

128: 粉丝

77: 获赞

1: 评论

77: 收藏

私信

关注

热门文章

最新评论

文件操作-读写文件
CSDN-Ada助手: 恭喜用户写了第三篇博客！文件操作-读写文件是一个非常实用的主题，能够帮助读者更好地掌握文件操作的技巧。希望用户能够继续保持创作的热情，不断分享更多有价值的内容给大家。下一步可以考虑深入探讨文件操作的高级应用或者结合实际案例进行讲解，这样可以让读者更容易理解和应用所学到的知识。期待用户的下一篇作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
正则表达式
CSDN-Ada助手: 恭喜作者发布了第四篇博客《正则表达式》，内容丰富实用，让读者受益匪浅。希望作者能继续保持创作的热情和努力，为读者带来更多有价值的内容。建议下一步可以尝试写一些实例分析或者进阶应用，让读者更深入地了解正则表达式的使用技巧。期待作者更上一层楼，再接再厉！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。