任务描述
下图是2016
年国防科技大学分数线的网页,在浏览器中我们可以看到,各省的最高分、最低分、平均分都整齐地排列自在表格中。一个网页的源代码时常有成百上千行,其中很多代码都是为了布局页面样式服务的,而我们时常关心的是网页上的数据,而并不关心样式代码。所以如何从冗长的网页源代码中提取我们关心的数据,是这一关我们将要一起学习和体验的内容。
编程要求
仔细阅读网页源代码信息,补全step3()
函数。通过2016
年国防科技大学分数线的网页源代码按省抽取最高分、最低分、平均分信息,并保存下来,具体任务如下:
- 按
tr
标签获取表格中所有行,保存在列表rows
中; - 迭代
rows
中的所有元素,获取每一行的td
标签内的数据,并把数据组成item
列表,将每一个item
添加到scorelist
列表; - 将由省份,分数组成的
8
元列表(分数不存在的用/
代替)作为元素保存到新列表score
中。
注意:本关只要抽取具体的数值,该表中前三行分别为标题、类别和分数分类的具体描述,这三行的数据不需要保存。
源代码
# -*- coding: utf-8 -*-
import urllib.request as req
import re
# 国防科技大学本科招生信息网中2016年录取分数网页URL:
url = 'https://www.nudt.edu.cn/bkzs/xxgk/lqfs/6a4ee15ca795454083ed233f502b262b.htm'
webpage = req.urlopen(url) # 根据超链访问链接的网页
data = webpage.read() # 读取超链网页数据
data = data.decode('utf-8') # byte类型解码为字符串
# 获取网页中的第一个表格中所有内容:
table = re.findall(r'<table(.*?)</table>', data, re.S)
firsttable = table[0] # 取网页中的第一个表格
# 数据清洗,将表中的 ,\u3000,和空格号去掉
firsttable = firsttable.replace(' ', '')
firsttable = firsttable.replace('\u3000', '')
firsttable = firsttable.replace(' ', '')
def step3():
score = []
# 请按下面的注释提示添加代码,完成相应功能,若要查看详细html代码,可在浏览器中打开url,查看页面源代码。
#********** Begin *********#
# 1.按tr标签对获取表格中所有行,保存在列表rows中:
rows = re.findall(r'<tr(.*?)</tr>', firsttable, re.S)
# 2.迭代rows中的所有元素,获取每一行的td标签内的数据,并把数据组成item列表,将每一个item添加到scorelist列表:
count = 0
for i in rows:
count += 1
if count == 1 or count == 2:
continue
item = []
tds = re.findall(r'<td(.*?)</td>', i, re.S)
count2 = 0
for j in tds:
count2 += 1
p = re.findall(r'<p(.*?)</p>', j, re.S)
if count2 == 1:
sf = re.search(r'[\u4e00-\u9fa5]+', p[0]).group(0)
item.append(sf)
elif count2 == 8:
break
else:
try:
fs = re.search(r'[1-9]\d*', p[0]).group(0)
item.append(fs)
except:
item.append('/')
# 3.将由省份,分数组成的8元列表(分数不存在的用/代替)作为元素保存到新列表score中,不要保存多余信息
score.append(item)
#********** End **********#
return score