网页抓取及信息提取 ※ 第3关：网页数据分析（一）

前程的前程也迷茫

已于 2023-10-17 19:35:24 修改

阅读量2.4k

点赞数 3

分类专栏：头歌文章标签：数据分析前端 python 爬虫

于 2023-10-17 14:29:17 首次发布

本文链接：https://blog.csdn.net/HQC66666/article/details/133883190

版权

头歌专栏收录该内容

17 篇文章 14 订阅

订阅专栏

任务描述

下图是2016年国防科技大学分数线的网页，在浏览器中我们可以看到，各省的最高分、最低分、平均分都整齐地排列自在表格中。一个网页的源代码时常有成百上千行，其中很多代码都是为了布局页面样式服务的，而我们时常关心的是网页上的数据，而并不关心样式代码。所以如何从冗长的网页源代码中提取我们关心的数据，是这一关我们将要一起学习和体验的内容。

编程要求

仔细阅读网页源代码信息，补全step3()函数。通过2016年国防科技大学分数线的网页源代码按省抽取最高分、最低分、平均分信息，并保存下来，具体任务如下：

按tr标签获取表格中所有行，保存在列表rows中；
迭代rows中的所有元素，获取每一行的td标签内的数据，并把数据组成item列表，将每一个item添加到scorelist列表；
将由省份，分数组成的8元列表（分数不存在的用/代替）作为元素保存到新列表score中。

注意：本关只要抽取具体的数值，该表中前三行分别为标题、类别和分数分类的具体描述，这三行的数据不需要保存。

源代码

# -*- coding: utf-8 -*-
import urllib.request as req
import re

# 国防科技大学本科招生信息网中2016年录取分数网页URL：
url = 'https://www.nudt.edu.cn/bkzs/xxgk/lqfs/6a4ee15ca795454083ed233f502b262b.htm'

webpage = req.urlopen(url)      # 根据超链访问链接的网页
data = webpage.read()           # 读取超链网页数据
data = data.decode('utf-8')     # byte类型解码为字符串

# 获取网页中的第一个表格中所有内容：
table = re.findall(r'<table(.*?)</table>', data, re.S)
firsttable = table[0]           # 取网页中的第一个表格
# 数据清洗，将表中的&nbsp，\u3000，和空格号去掉
firsttable = firsttable.replace('&nbsp;', '')
firsttable = firsttable.replace('\u3000', '')
firsttable = firsttable.replace(' ', '')


def step3():
    score = []
# 请按下面的注释提示添加代码，完成相应功能，若要查看详细html代码，可在浏览器中打开url，查看页面源代码。
#********** Begin *********#
# 1.按tr标签对获取表格中所有行，保存在列表rows中：
    rows = re.findall(r'<tr(.*?)</tr>', firsttable, re.S)

    
    
# 2.迭代rows中的所有元素，获取每一行的td标签内的数据，并把数据组成item列表，将每一个item添加到scorelist列表：
    count = 0
    for i in rows:
        count += 1
        if count == 1 or count == 2:
            continue
        item = []
        tds = re.findall(r'<td(.*?)</td>', i, re.S)
        count2 = 0
        for j in tds:
            count2 += 1
            p = re.findall(r'<p(.*?)</p>', j, re.S)
            if count2 == 1:
                sf = re.search(r'[\u4e00-\u9fa5]+', p[0]).group(0)
                item.append(sf)
            elif count2 == 8:
                break
            else:
                try:
                    fs = re.search(r'[1-9]\d*', p[0]).group(0)
                    item.append(fs)
                except:
                    item.append('/')
    
# 3.将由省份，分数组成的8元列表（分数不存在的用/代替）作为元素保存到新列表score中，不要保存多余信息
        score.append(item)

    
    
#********** End **********#
    
    return score

前程的前程也迷茫

关注

3
点赞
踩
12

收藏

觉得还不错? 一键收藏
打赏
3
评论
网页抓取及信息提取 ※ 第3关：网页数据分析（一）

第3关：网页数据分析（一）任务描述下图是2016年国防科技大学分数线的网页，在浏览器中我们可以看到，各省的最高分、最低分、平均分都整齐地排列自在表格中。一个网页的源代码时常有成百上千行，其中很多代码都是为了布局页面样式服务的，而我们时常关心的是网页上的数据，而并不关心样式代码。所以如何从冗长的网页源代码中提取我们关心的数据，是这一关我们将要一起学习和体验的内容。
复制链接

扫一扫