首先我选取的爬取数据是所有季度参演过的嘉宾然后检查网页代码,找到要爬取的数据那部分,这里需要爬取的是table标签
我用的是jupyter notebook写的代码,设置url与Headers,先写一个爬取下来数据保存到json文件的方法
这里可能会遇到一些问题,列表里单引号和双引号要搞清楚
运行结果:
接下来是一个自动爬取明星图片的方法(通过读取json文件中保存的’link’数据,即明星的百度百科链接,来进行图片的自动下载保存)
运行结果:
接着根据爬取的数据做了几个图表:
**
## 运行结果:
**
比较好奇哪个明星出场次数最多,就又写了个,可惜后来才发现table里本来就爬下来了。。林更新5次
数据可视化:
运行结果:
代码可能截图不全,参考为主,哪里不全可以找我发