python简易爬虫,获取王者皮肤高清图(复制即用)

大家好,今天分享一个简易爬虫的编写过程,内容附有详细代码讲解

1、找目标URL

先来到王者的官网,找到【游戏资料】—【英雄资料】
王者官网---英雄资料---英雄资料
可以看到这里列出了王者的所有英雄,所以这里我们思考一个问题,这么多的英雄是怎么管理的呢?一般大厂在管理这些英雄的时候,都是有编号的,只需要找对应的编号的就行了。此时就需要使用最常用的操作F12了。请看图
F12开发者界面
这里的img表示是html的图片标签,所以这里还需多嘴一句,自己寻找的时候还是需要具有一定的前端知识的,若是没有前端知识也没有关系,读过这篇文章之后你多少会有点提升。

<img src="//game.gtimg.cn/images/yxzj/img201606/heroimg/540/540.jpg">

分析一下这个代码的意思,src的值则是该图片的站内相对地址(URL),所以现在就显而易见了,该图片是存在于game.gtimg.cn的服务器内images/yxzj/img201606/heroimg/540/的文件夹下,图片名称是540.jpg
我们可以做个验证,用新的标签页打开这个图片,如图
金蝉的头像
我们就拿金蝉这一个英雄举例,点击进去之后我们可以看到有两个皮肤,一个是人物原型默认的
皮肤1
皮肤2
再次F12,我们来分析一下,这里除了序号不一样之外,其他的值均一样,此时我们可以联想,其他英雄的皮肤图片是不是也是这样?

在这里插入图片描述

在这里插入图片描述
我们再随便选几个英雄看看
黄忠1
黄忠2
黄忠3
通过对比发现,图片都是放在不同编号的文件夹里面,并且每张图仅有序号不同而已,所以我们现在就明白了该怎么来找图片的地址了

2、分析文件结构、命名方式、下载方式

通过第一个阶段,我们知道要找每个英雄对应的图片,得先找到英雄的编号,此时我们演示怎么来找这个编号,并且还要弄清楚,每个编号之间的联系,还是F12–网络(它提供了将网页内容录制的功能)
在这里插入图片描述
结果在翻找的过程中找到了一个叫做英雄列表的json文件herolist.json
在这里插入图片描述
然而很不幸,浏览器的预览功能看不了具体是什么,那我们把这个文件下载下来看一下里面具体是什么,复制连接用浏览器打开可直接下载

https://pvp.qq.com/web201605/js/herolist.json

结果一看豁然开朗,ename则是英雄的编号,cname是英雄名称,可以看到他的编号是从105廉颇开始,504金蝉结束。
在这里插入图片描述
拿到这部分之后我们就可以开始编程了,先引入我们需要的模块,因为这里设计到文件操作和URL请求

import os
import requests

先按照我们前面的步骤,获取所有英雄编号的json文件

url = 'https://pvp.qq.com/web201605/js/herolist.json'
herolist = requests.get(url)  # 获取英雄列表json文件
herolist_json = herolist.json()  # 转化为json格式
hero_name = list(map(lambda x: x['cname'], herolist.json()))  # 提取英雄的名字
hero_number = list(map(lambda x: x['ename'], herolist.json()))  # 提取英雄的编号

3、提取文件、保存文件

拿到所有英雄的编号之后就不难找他的皮肤图片了,我们可以看到每个英雄的图片命名规则是【编号-bigskin-序号.jpg】,那么我们拿着这个规则去找就行,这里还要一个问题,就是每个英雄的皮肤数其实是不一样的,我们只需要将循环次数放大点就行,找不到文件它自然是下载不了的,仅仅是占用一些时间而已。

def downloadPic():
    i = 0
    for j in hero_number:
        # 创建文件夹
        os.mkdir(hero_name[i])
        # 进入创建好的文件夹
        os.chdir(hero_name[i])
        i += 1
        for k in range(20):
            # 拼接url
            onehero_link = 'https://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/' + str(j) + '/' + str(j) + '-bigskin-' + str(k) + '.jpg'
            im = requests.get(onehero_link)  # 请求url
            if im.status_code == 200:
                open(str(k) + '.jpg', 'wb').write(im.content)  # 写入文件
        print(hero_name[i] + "写入成功")
        os.chdir("C:\\Users\\phy\\Desktop\\qwe")
        print("当前目录:" + os.getcwd())

downloadPic()

完整代码:(点击程序框右上角可一键复制哦!)

import os
import requests

url = 'https://pvp.qq.com/web201605/js/herolist.json'
herolist = requests.get(url)  # 获取英雄列表json文件

herolist_json = herolist.json()  # 转化为json格式
hero_name = list(map(lambda x: x['cname'], herolist.json()))  # 提取英雄的名字
hero_number = list(map(lambda x: x['ename'], herolist.json()))  # 提取英雄的编号

# 下载图片
def downloadPic():
    i = 0
    for j in hero_number:
        # 创建文件夹

        os.mkdir(hero_name[i])
        # 进入创建好的文件夹
        os.chdir(hero_name[i])
        i += 1
        for k in range(20):
            # 拼接url
            onehero_link = 'https://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/' + str(j) + '/' + str(
                j) + '-bigskin-' + str(k) + '.jpg'
            im = requests.get(onehero_link)  # 请求url
            if im.status_code == 200:
                open(str(k) + '.jpg', 'wb').write(im.content)  # 写入文件
        print(hero_name[i] + "写入成功")
        os.chdir("C:\\Users\\phy\\Desktop\\qwe")
        print("当前目录:" + os.getcwd())

downloadPic()

这里其实有个小坑,虽然我很想一次性解决好,让大家复制即用,但是还是留给了大家,希望在复制的时候即使修改。

os.chdir("C:\\Users\\phy\\Desktop\\qwe")#每次返回当前目录

文件的路径是一个坑哦,同时我没有写创建文件夹,所以在运行代码前要在当前文件所在的目录下载创建qwe文件夹,当然可以修改成自己想要的路径。
下载的文件如图:
在这里插入图片描述
在这里插入图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

奇怪的芝麻

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值