pandas 如何删掉第一行_第16篇:Pandas快速爬取网站上的表格数据

最新推荐文章于 2022-08-02 08:54:26 发布

weixin_31092081

最新推荐文章于 2022-08-02 08:54:26 发布

阅读量451

点赞数

文章标签： pandas 如何删掉第一行

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_31092081/article/details/112194286

版权

本文介绍了如何使用pandas的read_html()函数快速获取网站上的表格数据，并通过dropna()和drop()方法进行数据清洗，删除包含NaN的行或列，以及如何利用isnull()筛选和删除特定列的无效数据。最后讨论了如何保存处理后的数据到CSV文件。

摘要由CSDN通过智能技术生成

pandas的read_html()函数是将HTML表转换为pandas内部的DataFrame类型的快速便捷的方法。更直白地说，对于专门写爬取表格的Python从业者来说，此函数简直就是懒人一大利器，你无需重做轮子如何使用Cython去写一个table表格的解释器。因为Pandas底层基于lxml+numpy+openpyxl这些底层库做了高度的Cython优化。在本文中，笔者粗略地讲解pandas.read_html（）读取网上的表格和基本的数据格式化操作。

read_html()大法,好~!

直奔主题吧，当然你要给一个包含表格的网站url传递给read_html函数

read_html会返回这些表的DataFrame列表,即便整个网站有一个表也会包含在list中。因此需要访问具体的DataFrame，必须添加下标访问符，例如

df[0]

如果需要查看当前网站有多少张表，使用Python默认的len函数查看就OK了。

最低0.47元/天解锁文章

weixin_31092081

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
pandas 如何删掉第一行_第16篇:Pandas快速爬取网站上的表格数据

pandas的read_html()函数是将HTML表转换为pandas内部的DataFrame类型的快速便捷的方法。更直白地说，对于专门写爬取表格的Python从业者来说，此函数简直就是懒人一大利器，你无需重做轮子如何使用Cython去写一个table表格的解释器。因为Pandas底层基于lxml+numpy+openpyxl这些底层库做了高度的Cython优化。在本文中，笔者粗略地讲解pan...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。