任务描述
上一关我们学习了如何访问给定的网页并保存信息到本地,本关我们要从上一关访问的网页中提取出嵌套的url
地址,即实现子链接的提取。
编程要求
仔细阅读网页源代码信息,补全step2()
函数。从网页中找到2021
到2014
年国防科技大学录取分数线统计网页的子链接url
数据并提取出来,具体来说:
- 使用
find()
函数定位这五个url
,并保存在列表urls
中(顺序从2021
-2014
倒序)。
注意:提取的超链是相对地址,需要加上站点域名,拼接成完整的URL
。
源代码
# -*- coding: utf-8 -*-
import urllib.request as req
# 国防科技大学本科招生信息网中录取分数网页URL:
url = 'https://www.nudt.edu.cn/bkzs/xxgk/lqfs/index.htm' # 录取分数网页URL
webpage = req.urlopen(url) # 按照类文件的方式打开网页
data = webpage.read() # 一次性读取网页的所有数据
data = data.decode('utf-8') # 将byte类型的data解码为字符串(否则后面查找就要另外处理了)
def step2():
# 建立空列表urls,来保存子网页的url
urls = []
# 请按下面的注释提示添加代码,完成相应功能
#********** Begin *********#
# 从data中提取2014到2021每一年分数线子网站地址添加到urls列表中
for i in range(2014,2021+1):
string = f"{i}年录取分数统计"
index = data.find(string)
urls.insert(0,'https://www.nudt.edu.cn/bkzs/xxgk/lqfs/'+'"'+
data[index-133:index-133+36])
# #********** End **********#
return urls