python简易爬虫，获取王者皮肤高清图（复制即用）

本文链接：https://blog.csdn.net/panhongyuan1/article/details/121478202

大家好，今天分享一个简易爬虫的编写过程，内容附有详细代码讲解

1、找目标URL
2、分析文件结构、命名方式、下载方式
3、提取文件、保存文件

1、找目标URL

先来到王者的官网，找到【游戏资料】—【英雄资料】
王者官网---英雄资料---英雄资料
可以看到这里列出了王者的所有英雄，所以这里我们思考一个问题，这么多的英雄是怎么管理的呢？一般大厂在管理这些英雄的时候，都是有编号的，只需要找对应的编号的就行了。此时就需要使用最常用的操作F12了。请看图
F12开发者界面
这里的img表示是html的图片标签，所以这里还需多嘴一句，自己寻找的时候还是需要具有一定的前端知识的，若是没有前端知识也没有关系，读过这篇文章之后你多少会有点提升。

<img src="//game.gtimg.cn/images/yxzj/img201606/heroimg/540/540.jpg">

分析一下这个代码的意思，src的值则是该图片的站内相对地址（URL），所以现在就显而易见了，该图片是存在于game.gtimg.cn的服务器内images/yxzj/img201606/heroimg/540/的文件夹下，图片名称是540.jpg
我们可以做个验证，用新的标签页打开这个图片，如图
金蝉的头像
我们就拿金蝉这一个英雄举例，点击进去之后我们可以看到有两个皮肤，一个是人物原型默认的
皮肤1
皮肤2
再次F12，我们来分析一下，这里除了序号不一样之外，其他的值均一样，此时我们可以联想，其他英雄的皮肤图片是不是也是这样？

在这里插入图片描述

在这里插入图片描述
我们再随便选几个英雄看看
黄忠1
黄忠2
黄忠3
通过对比发现，图片都是放在不同编号的文件夹里面，并且每张图仅有序号不同而已，所以我们现在就明白了该怎么来找图片的地址了

2、分析文件结构、命名方式、下载方式

通过第一个阶段，我们知道要找每个英雄对应的图片，得先找到英雄的编号，此时我们演示怎么来找这个编号，并且还要弄清楚，每个编号之间的联系，还是F12–网络（它提供了将网页内容录制的功能）
在这里插入图片描述
结果在翻找的过程中找到了一个叫做英雄列表的json文件herolist.json

然而很不幸，浏览器的预览功能看不了具体是什么，那我们把这个文件下载下来看一下里面具体是什么，复制连接用浏览器打开可直接下载

https://pvp.qq.com/web201605/js/herolist.json

结果一看豁然开朗，ename则是英雄的编号，cname是英雄名称，可以看到他的编号是从105廉颇开始，504金蝉结束。
在这里插入图片描述
拿到这部分之后我们就可以开始编程了，先引入我们需要的模块，因为这里设计到文件操作和URL请求

import os
import requests

先按照我们前面的步骤，获取所有英雄编号的json文件

url = 'https://pvp.qq.com/web201605/js/herolist.json'
herolist = requests.get(url)  # 获取英雄列表json文件

herolist_json = herolist.json()  # 转化为json格式
hero_name = list(map(lambda x: x['cname'], herolist.json()))  # 提取英雄的名字
hero_number = list(map(lambda x: x['ename'], herolist.json()))  # 提取英雄的编号

3、提取文件、保存文件

拿到所有英雄的编号之后就不难找他的皮肤图片了，我们可以看到每个英雄的图片命名规则是【编号-bigskin-序号.jpg】，那么我们拿着这个规则去找就行，这里还要一个问题，就是每个英雄的皮肤数其实是不一样的，我们只需要将循环次数放大点就行，找不到文件它自然是下载不了的，仅仅是占用一些时间而已。

def downloadPic():
    i = 0
    for j in hero_number:
        # 创建文件夹
        os.mkdir(hero_name[i])
        # 进入创建好的文件夹
        os.chdir(hero_name[i])
        i += 1
        for k in range(20):
            # 拼接url
            onehero_link = 'https://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/' + str(j) + '/' + str(j) + '-bigskin-' + str(k) + '.jpg'
            im = requests.get(onehero_link)  # 请求url
            if im.status_code == 200:
                open(str(k) + '.jpg', 'wb').write(im.content)  # 写入文件
        print(hero_name[i] + "写入成功")
        os.chdir("C:\\Users\\phy\\Desktop\\qwe")
        print("当前目录：" + os.getcwd())

downloadPic()

完整代码：（点击程序框右上角可一键复制哦！）

import os
import requests

url = 'https://pvp.qq.com/web201605/js/herolist.json'
herolist = requests.get(url)  # 获取英雄列表json文件

herolist_json = herolist.json()  # 转化为json格式
hero_name = list(map(lambda x: x['cname'], herolist.json()))  # 提取英雄的名字
hero_number = list(map(lambda x: x['ename'], herolist.json()))  # 提取英雄的编号

# 下载图片
def downloadPic():
    i = 0
    for j in hero_number:
        # 创建文件夹

        os.mkdir(hero_name[i])
        # 进入创建好的文件夹
        os.chdir(hero_name[i])
        i += 1
        for k in range(20):
            # 拼接url
            onehero_link = 'https://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/' + str(j) + '/' + str(
                j) + '-bigskin-' + str(k) + '.jpg'
            im = requests.get(onehero_link)  # 请求url
            if im.status_code == 200:
                open(str(k) + '.jpg', 'wb').write(im.content)  # 写入文件
        print(hero_name[i] + "写入成功")
        os.chdir("C:\\Users\\phy\\Desktop\\qwe")
        print("当前目录：" + os.getcwd())

downloadPic()

这里其实有个小坑，虽然我很想一次性解决好，让大家复制即用，但是还是留给了大家，希望在复制的时候即使修改。

os.chdir("C:\\Users\\phy\\Desktop\\qwe")#每次返回当前目录

文件的路径是一个坑哦，同时我没有写创建文件夹，所以在运行代码前要在当前文件所在的目录下载创建qwe文件夹，当然可以修改成自己想要的路径。
下载的文件如图：
在这里插入图片描述