【Python奇淫技巧】用pandas的read_html函数仅一行代码实现网页爬虫

马哥python说

已于 2022-04-17 11:33:35 修改

阅读量3.0k

点赞数 7

分类专栏： python爬虫文章标签：爬虫 python

于 2022-04-17 10:13:13 首次发布

本文链接：https://blog.csdn.net/solo_msk/article/details/124225502

版权

23 篇文章 38 订阅

订阅专栏

一、介绍read_html()函数

喜欢Python编程的小伙伴你知道吗，python的pandas库除了可以做数据分析，还可以做简易爬虫，仅需一行核心代码，就可以实现一个爬虫程序，轻轻松松爬取网页数据！

它就是pandas库的read_html()函数，实现python爬虫可以说是非常方便了。

这里需要说明的是，它只能针对网页上有<table></table>标签的表格数据进行爬取。

这里，我爬取的目标网址是：上海市天气预报_某网站

可以看到，页面上是有一个表格数据的，按F12打开开发者模式，查看网页源代码：

确实是有<table>标签的表格数据。那就好办了，开始撸代码！

代码总共3行，核心代码就1行：

import pandas as pd   # 导入库
url = 'http://weather.sina.com.cn/china/shanghaishi/'  # 目标网址(含有<table>的表格)
df = pd.read_html(url)[1]  # 开始爬取目标网站

这样短短3行代码，数据就爬取下来了。看一下爬下来的数据：

没问题，和原页面数据完全一致！后面在用pd.to_excel()把数据保存下来就OK了。

超级简单、强大有没有！

这里附上read_html()函数的官网参数说明，供小伙伴们参考：（贴心的我已经翻译成中文了^_^）

再次强调一遍，它只能针对网页上有<table></table>标签的表格数据进行爬取。

如果页面上没有<table>标签，用这个方法爬取的话，会提示"No tables found"的报错：

这是我用ipython界面截的图，用其他IDE也会这样报错的！

代码逐行讲解视频：

【爬虫神器】2分钟讲解用python一行代码轻松爬取网页数据

按以往的习惯，我都会分享Python源码文件，这次不用分享了吧，就3行代码，自己撸吧小伙伴！

同步公众号文章：

我是马哥，全网累计粉丝上万，欢迎一起交流python技术。

各平台搜索“马哥python说”：知乎、哔哩哔哩、小红书、新浪微博。

马哥python说

关注

专栏目录