Python笔记：用read_html()来抓取table格式的网页数据

最新推荐文章于 2024-07-29 02:32:41 发布

哈佛在等我呢

最新推荐文章于 2024-07-29 02:32:41 发布

阅读量2.5k

点赞数 2

分类专栏： Python Python数据分析文章标签： python pandas 爬虫数据分析

本文链接：https://blog.csdn.net/weixin_37537423/article/details/121552953

版权

干货分享：

#如何做出好看的Excel可视化图表(小白免费也能做出视觉炫酷的可视化图表)

更多精彩，请点击跳转到我的哔哩哔哩

read_html() 的基本语法及其参数：

pandas.read_html(io,match='.+',flavor=None,header=None,index_col=None,skiprows=None, attrs=None,
parse_dates=False, thousands=', ', encoding=None, decimal='.', converters=None, na_values=None, 
keep_default_na=True, displayed_only=True）

参数	注释
io	接收网址、文件、字符串
parse_dates	解析日期
flavor	解析器
header	标题行
skiprows	跳过的行属性，比如 attrs = {‘id’: ‘table’}

案例1：抓取世界大学排名榜（第1页的数据）

# 导入库
import pandas

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

哈佛在等我呢

关注关注

2
点赞
踩
19

收藏

觉得还不错? 一键收藏
1
评论
Python笔记：用read_html()来抓取table格式的网页数据

干货分享： #如何做出好看的Excel可视化图表(小白免费也能做出视觉炫酷的可视化图表) 更多精彩，请点击跳转到我的哔哩哔哩read_html() 的基本语法及其参数：pandas.read_html(io,match='.+',flavor=None,header=None,index_col=None,skiprows=None, attrs=None,parse_dates=
复制链接

扫一扫