【Python奇淫技巧】用pandas的read_html函数仅一行代码实现网页爬虫

目录

一、介绍read_html()函数

二、分析爬取目标页面

三、代码讲解

四、同步视频讲解


一、介绍read_html()函数

喜欢Python编程的小伙伴你知道吗,python的pandas库除了可以做数据分析,还可以做简易爬虫,仅需一行核心代码,就可以实现一个爬虫程序,轻轻松松爬取网页数据!

它就是pandas库的read_html()函数,实现python爬虫可以说是非常方便了。

这里需要说明的是,它只能针对网页上有<table></table>标签的表格数据进行爬取。

二、分析爬取目标页面

这里,我爬取的目标网址是:上海市天气预报_某网站

可以看到,页面上是有一个表格数据的,按F12打开开发者模式,查看网页源代码:

确实是有<table>标签的表格数据。那就好办了,开始撸代码!

三、代码讲解

代码总共3行,核心代码就1行:

import pandas as pd   # 导入库
url = 'http://weather.sina.com.cn/china/shanghaishi/'  # 目标网址(含有<table>的表格)
df = pd.read_html(url)[1]  # 开始爬取目标网站

这样短短3行代码,数据就爬取下来了。看一下爬下来的数据:

没问题,和原页面数据完全一致!后面在用pd.to_excel()把数据保存下来就OK了。

超级简单、强大有没有!

这里附上read_html()函数的官网参数说明,供小伙伴们参考:(贴心的我已经翻译成中文了^_^)

再次强调一遍,它只能针对网页上有<table></table>标签的表格数据进行爬取。

如果页面上没有<table>标签,用这个方法爬取的话,会提示"No tables found"的报错:

这是我用ipython界面截的图,用其他IDE也会这样报错的!

四、同步视频讲解

代码逐行讲解视频:

【爬虫神器】2分钟讲解用python一行代码轻松爬取网页数据

按以往的习惯,我都会分享Python源码文件,这次不用分享了吧,就3行代码,自己撸吧小伙伴!

同步公众号文章:

【Python爬虫奇淫技巧】 用pandas库read_html函数一行代码搞定爬虫!


我是马哥,全网累计粉丝上万,欢迎一起交流python技术。

各平台搜索“马哥python说”:知乎、哔哩哔哩、小红书、新浪微博。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

马哥python说

打赏多少不重要,表达认可最重要

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值