相信很多小伙伴都玩过赛尔号吧,今天,我们就来爬取赛尔号的图片(爬取地址:http://news.4399.com/seer/jinglingdaquan/ )
首先,新建一个项目
新建一个py文件
导入我们需要的包(没有相应的包可以通过 pip3 install 包名 安装)
回到网页,按f12查看代码,这里的编码方式是gb2312,我们解码时可以用gb2312或gbk(gbk可以理解为gb2312的升级版,面向国际,除了兼容gb2312,还能显示繁体中文,还有日文的假名)
打印一下html变量
回到网页右键查看源代码,细心的你会发现这些代码包含了所有精灵的详情介绍页面(这样就不需要考虑动态加载了)如下:
进入详情介绍页面后,用指针点击图片
到这里我们就清楚爬取的流程了,先爬取上一个页面script中详情介绍页面的链接,再进入详情页面爬取图片和名字
这里会有疑问,怎么取出想要的数据呢?
其实我们可以根据数据长度简单取出var petData这条数据,因为这条数据的数据量远远大于其它数据的数据量
接下来根据详情介绍页面链接的共同特征,使用正则表达式提取链接
接下来,我们访问提取的链接,爬取图片和名字,
我们先再一次分析详情介绍页面的图片和名字,
最后一步,保存
接下来,我们运行一下,
再看看e:\name
这样就完成了爬取和保存。
个人微信公众号推荐,专为各位IT好友分享资源(已分享上百G资源,涵盖了 微信小程序、Java、Python、人工智能等)
最后推荐一下新建的python交流群,群号812653899,里面有许多python资源,欢迎大家入群讨论,一起进步,我会不定期更新资源和博客的,也欢迎大家指正错误。