pandas 如何删掉第一行_第16篇:Pandas快速爬取网站上的表格数据

本文介绍了如何使用pandas的read_html()函数快速获取网站上的表格数据,并通过dropna()和drop()方法进行数据清洗,删除包含NaN的行或列,以及如何利用isnull()筛选和删除特定列的无效数据。最后讨论了如何保存处理后的数据到CSV文件。
摘要由CSDN通过智能技术生成

pandas的read_html()函数是将HTML表转换为pandas内部的DataFrame类型的快速便捷的方法。更直白地说,对于专门写爬取表格的Python从业者来说, 此函数简直就是懒人一大利器,你无需重做轮子如何使用Cython去写一个table表格的解释器。因为Pandas底层基于lxml+numpy+openpyxl这些底层库做了高度的Cython优化。在本文中,笔者粗略地讲解pandas.read_html()读取网上的表格和基本的数据格式化操作。

read_html()大法,好~!

直奔主题吧,当然你要给一个包含表格的网站url传递给read_html函数

8355a5e3c5a8b233a7b814e37585def8.png

read_html会返回这些表的DataFrame列表,即便整个网站有一个表也会包含在list中。因此需要访问具体的DataFrame,必须添加下标访问符,例如

df[0]

如果需要查看当前网站有多少张表,使用Python默认的len函数查看就OK了。

ce2c0fe90a21f7ae2ce6e5451f122294.png
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值