pandas的read_html()函数是将HTML表转换为pandas内部的DataFrame类型的快速便捷的方法。更直白地说,对于专门写爬取表格的Python从业者来说, 此函数简直就是懒人一大利器,你无需重做轮子如何使用Cython去写一个table表格的解释器。因为Pandas底层基于lxml+numpy+openpyxl这些底层库做了高度的Cython优化。在本文中,笔者粗略地讲解pandas.read_html()读取网上的表格和基本的数据格式化操作。
read_html()大法,好~!
直奔主题吧,当然你要给一个包含表格的网站url传递给read_html函数
![8355a5e3c5a8b233a7b814e37585def8.png](https://i-blog.csdnimg.cn/blog_migrate/dceda6da75e656ff26d40a4d173428c3.jpeg)
read_html会返回这些表的DataFrame列表,即便整个网站有一个表也会包含在list中。因此需要访问具体的DataFrame,必须添加下标访问符,例如
df[0]
如果需要查看当前网站有多少张表,使用Python默认的len函数查看就OK了。
![ce2c0fe90a21f7ae2ce6e5451f122294.png](https://i-blog.csdnimg.cn/blog_migrate/1ecdf469154e9dece07d498edf56191c.png)