网页抓取及信息提取 ※ 第4关：网页数据分析（二）※

最新推荐文章于 2023-11-02 16:57:08 发布

前程的前程也迷茫

最新推荐文章于 2023-11-02 16:57:08 发布

阅读量840

点赞数 1

分类专栏：头歌文章标签：数据分析 python 数据挖掘爬虫

本文链接：https://blog.csdn.net/HQC66666/article/details/133892160

版权

头歌专栏收录该内容

17 篇文章 14 订阅

订阅专栏

任务描述

如图所示：通过上一关卡我们学会了如何从冗长的网页源代码中提取我们关心的数据，现已将2016年国防科技大学不同省份录取的分数线的网页数据存储至本地文本文件中。这一关我们将要一起学习如何对文件中的数据进行分析。

小贴士：图片中一二行为数据文件中每一列的字段名，每个分类以|分隔。

编程要求

在右侧Begin-End区域中，完成查询2016年一本分数最高的3个省份。

测试说明

平台会对你编写的代码进行测试：

预期输出： [(602, '海南'), (600, '浙江'), (548, '北京')]

源代码

# 函数 analysis 传入参数`path`表示文件路径
def analysis(path):
   #*********** Begin **********#
   #先读取所有省份和对应的一本线分数，分别存入列表prov和grades
   prov = []
   grades = []
   
   with open(path,'r') as f:
      sum = len(f.readlines())
   with open(path,'r') as f:
      x = f.readlines()
      for i in x:
         prov.append(i.split('\t')[0])
         grades.append(int(i.split('\t')[1]))
   temp = zip(grades,prov)
   result = sorted(temp,reverse=True)
   # 直接打印输出答案即可
   print(result[:3])
   #*********** End **********#
 
analysis("/root/2016.txt")

结果

前程的前程也迷茫

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
网页抓取及信息提取 ※ 第4关：网页数据分析（二）※

网页抓取及信息提取 ※ 第4关：网页数据分析（二）※ 如图所示：通过上一关卡我们学会了如何从冗长的网页源代码中提取我们关心的数据，现已将2016年国防科技大学不同省份录取的分数线的网页数据存储至本地文本文件中。这一关我们将要一起学习如何对文件中的数据进行分析。小贴士：图片中一二行为数据文件中每一列的字段名，每个分类以|分隔。
复制链接

扫一扫