爬虫小项目之爬取赛尔号

相信很多小伙伴都玩过赛尔号吧,今天,我们就来爬取赛尔号的图片(爬取地址:http://news.4399.com/seer/jinglingdaquan/ )

在这里插入图片描述

首先,新建一个项目

在这里插入图片描述

新建一个py文件

在这里插入图片描述

导入我们需要的包(没有相应的包可以通过 pip3 install 包名 安装)

在这里插入图片描述

回到网页,按f12查看代码,这里的编码方式是gb2312,我们解码时可以用gb2312或gbk(gbk可以理解为gb2312的升级版,面向国际,除了兼容gb2312,还能显示繁体中文,还有日文的假名)

在这里插入图片描述
在这里插入图片描述

打印一下html变量

在这里插入图片描述
在这里插入图片描述

回到网页右键查看源代码,细心的你会发现这些代码包含了所有精灵的详情介绍页面(这样就不需要考虑动态加载了)如下:

在这里插入图片描述

进入详情介绍页面后,用指针点击图片

在这里插入图片描述

到这里我们就清楚爬取的流程了,先爬取上一个页面script详情介绍页面的链接,再进入详情页面爬取图片和名字

在这里插入图片描述

这里会有疑问,怎么取出想要的数据呢?
其实我们可以根据数据长度简单取出var petData这条数据,因为这条数据的数据量远远大于其它数据的数据量

在这里插入图片描述

接下来根据详情介绍页面链接的共同特征,使用正则表达式提取链接

在这里插入图片描述
在这里插入图片描述

接下来,我们访问提取的链接,爬取图片和名字,
我们先再一次分析详情介绍页面的图片和名字,

在这里插入图片描述

在这里插入图片描述

最后一步,保存

在这里插入图片描述
在这里插入图片描述

接下来,我们运行一下,

在这里插入图片描述

再看看e:\name

在这里插入图片描述

这样就完成了爬取和保存。

个人微信公众号推荐,专为各位IT好友分享资源(已分享上百G资源,涵盖了 微信小程序、Java、Python、人工智能等)
在这里插入图片描述

最后推荐一下新建的python交流群,群号812653899,里面有许多python资源,欢迎大家入群讨论,一起进步,我会不定期更新资源和博客的,也欢迎大家指正错误。

  • 5
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值