简单爬取奥运奖牌榜

最新推荐文章于 2024-04-07 02:38:29 发布

BuerYouth

最新推荐文章于 2024-04-07 02:38:29 发布

阅读量1.1k

点赞数 1

分类专栏： Python笔记文章标签： python

本文链接：https://blog.csdn.net/qq_43656397/article/details/119296096

版权

Python笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Python爬取奥运奖牌榜

场景介绍

数据截止于2021-07-31
使用urllib库爬取东京奥运会奖牌榜
使用pandas库快速导入、处理网页中的表格
查看奖牌榜网址(url=‘https://olympics.com/tokyo-2020/olympic-games/zh/results/all-sports/medal-standings.htm’)

实例环境及工具

Python开发环境、Jupyter notebook编辑器
urllibs是python自带的库
pandas库需要自行安装pip install pandas

爬取奖牌榜

导入相关库

import pandas as ps
from urllib import request

获取网页页面

url = 'https://olympics.com/tokyo-2020/olympic-games/zh/results/all-sports/medal-standings.htm'
page1 = request.urlopen(url)

读取网页数据
```
html = page1.read()
print(html)
```

读取表格数据

df = pd.read_html(html)[0] # 转换成Pandas数据
df1 = df[:10] # 仅查看排名前十
df1

在这里插入图片描述

转换嵌套字典

df1.T.to_dict().values()   # 转换成嵌套字典的格式

在这里插入图片描述

代码汇总

	import pandas as pd
	from urllib import request
	url = 'https://olympics.com/tokyo-2020/olympic-games/zh/results/all-sports/medal-standings.htm'
	page = request.urlopen(url).read() # 获取网页
	df = pd.read_html(page)[0] # 转换成Pandas数据
	df1 = df[:3] # 仅查看排名前三
	list(df1.T.to_dict().values())   # 转换成列表嵌套字典的格式

[{'排名': 1,
  '国家奥委会': '中国',
  'Unnamed: 2': 22,
  'Unnamed: 3': 13,
  'Unnamed: 4': 12,
  '总分': 47,
  '按总数排名': 2,
  '国家奥委会代码': 'CHN'},
 {'排名': 2,
  '国家奥委会': '美国',
  'Unnamed: 2': 19,
  'Unnamed: 3': 20,
  'Unnamed: 4': 13,
  '总分': 52,
  '按总数排名': 1,
  '国家奥委会代码': 'USA'},
 {'排名': 3,
  '国家奥委会': '日本',
  'Unnamed: 2': 17,
  'Unnamed: 3': 5,
  'Unnamed: 4': 8,
  '总分': 30,
  '按总数排名': 5,
  '国家奥委会代码': 'JPN'}]

BuerYouth

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
打赏
0
评论
简单爬取奥运奖牌榜

Python爬取奥运奖牌榜场景介绍实例环境及工具爬取奖牌榜代码汇总场景介绍数据截止于2021-07-31使用urllib库爬取东京奥运会奖牌榜使用pandas库快速导入、处理网页中的表格查看奖牌榜网址(url=‘https://olympics.com/tokyo-2020/olympic-games/zh/results/all-sports/medal-standings.htm’)实例环境及工具Python开发环境、Jupyter notebook编辑器urllibs是pytho
复制链接

扫一扫