python爬虫爬取网页指定数据(百度百科)

首先我选取的爬取数据是所有季度参演过的嘉宾在这里插入图片描述然后检查网页代码,找到要爬取的数据那部分,这里需要爬取的是table标签在这里插入图片描述

我用的是jupyter notebook写的代码,设置url与Headers,先写一个爬取下来数据保存到json文件的方法

在这里插入图片描述
在这里插入图片描述这里可能会遇到一些问题,列表里单引号和双引号要搞清楚
运行结果:在这里插入图片描述

接下来是一个自动爬取明星图片的方法(通过读取json文件中保存的’link’数据,即明星的百度百科链接,来进行图片的自动下载保存)

在这里插入图片描述
运行结果:
在这里插入图片描述

接着根据爬取的数据做了几个图表:

在这里插入图片描述**

## 运行结果:

**
在这里插入图片描述

在这里插入图片描述

比较好奇哪个明星出场次数最多,就又写了个,可惜后来才发现table里本来就爬下来了。。林更新5次
在这里插入图片描述

数据可视化:

在这里插入图片描述
运行结果:在这里插入图片描述
代码可能截图不全,参考为主,哪里不全可以找我发

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值