爬虫小项目之爬取赛尔号

chent_某位

于 2019-07-12 14:10:19 发布

阅读量1.8w

点赞数 5

分类专栏： python 文章标签：爬虫爬虫项目爬取赛尔号

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35526165/article/details/95602065

版权

python 专栏收录该内容

14 篇文章 1 订阅

订阅专栏

相信很多小伙伴都玩过赛尔号吧，今天，我们就来爬取赛尔号的图片（爬取地址：http://news.4399.com/seer/jinglingdaquan/ ）

在这里插入图片描述

首先，新建一个项目

在这里插入图片描述

新建一个py文件

在这里插入图片描述

导入我们需要的包（没有相应的包可以通过 pip3 install 包名 安装）

在这里插入图片描述

回到网页，按f12查看代码，这里的编码方式是gb2312，我们解码时可以用gb2312或gbk（gbk可以理解为gb2312的升级版，面向国际，除了兼容gb2312，还能显示繁体中文，还有日文的假名）

在这里插入图片描述

打印一下html变量

在这里插入图片描述

回到网页右键查看源代码，细心的你会发现这些代码包含了所有精灵的详情介绍页面（这样就不需要考虑动态加载了）如下：

在这里插入图片描述

进入详情介绍页面后，用指针点击图片

在这里插入图片描述

到这里我们就清楚爬取的流程了，先爬取上一个页面script中详情介绍页面的链接，再进入详情页面爬取图片和名字

在这里插入图片描述

这里会有疑问，怎么取出想要的数据呢？
其实我们可以根据数据长度简单取出var petData这条数据，因为这条数据的数据量远远大于其它数据的数据量

在这里插入图片描述

接下来根据详情介绍页面链接的共同特征，使用正则表达式提取链接

在这里插入图片描述

接下来，我们访问提取的链接，爬取图片和名字，
我们先再一次分析详情介绍页面的图片和名字，

在这里插入图片描述

在这里插入图片描述

最后一步，保存

在这里插入图片描述

接下来，我们运行一下，

在这里插入图片描述

再看看e:\name

在这里插入图片描述

这样就完成了爬取和保存。

个人微信公众号推荐，专为各位IT好友分享资源（已分享上百G资源，涵盖了微信小程序、Java、Python、人工智能等）
在这里插入图片描述

最后推荐一下新建的python交流群，群号812653899，里面有许多python资源，欢迎大家入群讨论，一起进步，我会不定期更新资源和博客的，也欢迎大家指正错误。

关注

5
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
爬虫小项目之爬取赛尔号

相信很多小伙伴都玩过赛尔号吧，今天，我们就来爬取赛尔号的图片（爬取地址：http://news.4399.com/seer/jinglingdaquan/ ）首先，新建一个项目新建一个py文件导入我们需要的包（没有相应的包可以通过 pip3 install 包名安装）回到网页，按f12查看代码，这里的编码方式是gb2312，我们解码时可以用gb2312或gbk（gbk可以理解为g...
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。