爬lol全英雄皮肤

最新推荐文章于 2023-12-03 19:55:50 发布

都不是宝贝

最新推荐文章于 2023-12-03 19:55:50 发布

阅读量335

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/weixin_42180497/article/details/106875513

版权

python 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

初学爬虫简单的爬取一下lol全英雄皮肤，自己写的，和网上CV的好不一样，觉得文章说得过去的记得留下足迹。

分析页面

1.英雄列表
首先在英雄页面找到hero_list.js；至于为什么是这个文件，看图：
在这里插入图片描述
观察该文件响应头，获取访问的url，打开新的窗口，访问该链接，能获取对应数据。（这边显示在一行很男查看，推荐一款好用的chrome插件JSONView，可以帮帮我们格式化json数据，可以在github搜索下载）

得到以下数据
在这里插入图片描述
可以看得出来，这是一个全英雄的列表，可以通过遍历获取全英雄的id和名称。

英雄皮肤
我们获得了英雄列表数据，接下来就是获取各个英雄皮肤数据，老规矩查找有skins对应数据的文件

查看响应头，很简单的可以看出来，这个url只有末尾的id不一样

新开窗口查看url内容

有我们需要的mainImg链接，于是，事情就简单了

爬虫实现

遍历英雄列表，再遍历对应的皮肤列表，挨个保存。看代码吧，不复杂，所以我把说明放在了代码里

import requests
import json
import os

# 定义一个获取图片名称的方法，因为有一些皮肤名称包含“/”，会出错。
# 小贴士：replace不会修改原字符串，需要重新赋值
def get_img_name(i):
    img_name = detail_dict.get("skins")[i]["name"]
    img_name = img_name.replace('/', '-')
    return img_name
    
# url1是英雄列表的url
url1 = "https://game.gtimg.cn/images/lol/act/img/js/heroList/hero_list.js"
headers = { 
            "User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1"
            }

os.mkdir("lol")     # 先创建一个lol目录

# 访问页面，回去信息
res = requests.get(url1, headers=headers)
# 将字符串加载成字典
# 小贴士： loads和dumps经常搞混的可以这样记：loads是加载的意思，对应将字符串加载成字典。（这样一来还是很好记忆的，至少我这么认为）
content = json.loads(res.content)    

# 遍历所有英雄
for i in range(len(content.get("hero"))):
    # 1. 获取英雄名称并且创建对应英雄目录 ----- 格式如：黑暗之女-安妮
    hero_first = content.get("hero")[i]["name"]
    hero_last = content.get("hero")[i]["title"]
    hero_name = hero_first+"-"+hero_last
    os.mkdir("lol/"+hero_name)
    # 2. 获取英雄id，拼接url
    hero_id = content.get("hero")[i]["heroId"]
    url_detail = "https://game.gtimg.cn/images/lol/act/img/js/hero/"+hero_id+".js"
    # 3. 访问英雄详细
    detail = requests.get(url_detail, headers=headers)
    detail_dict = json.loads(detail.content)            # 将字符串加载成字典
    # 4. 遍历该英雄的所有皮肤
    for i in range(len(detail_dict.get("skins"))):
        # 如果图片存在，爬取图片（因为在英雄列表中有很多空的图片）
        if detail_dict.get("skins")[i]["mainImg"]:
            img_url = detail_dict.get("skins")[i]["mainImg"]
            img = requests.get(img_url, headers=headers)
            img_name = get_img_name(i)
            with open("lol/"+hero_name+"/"+img_name+".jpg", "wb") as f:
                f.write(img.content)

这样子，讲道理就已经可以实现了，是不是很简单。这边还没有做代码优化，没有协程面向对象的形式，而且效率讲真的有点低，等再深造几天，回来再做补充。觉得文章还说得过去的，记得留下小小足迹o。

都不是宝贝

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬lol全英雄皮肤

初学爬虫简单的爬取一下lol全英雄皮肤，自己写的，和网上CV的好不一样，觉得文章说得过去的记得留下足迹。一分析页面1.英雄列表首先在英雄页面找到hero_list.js；至于为什么是这个文件，看图：观察该文件响应头，获取访问的url，打开新的窗口，访问该链接，能获取对应数据。（这边显示在一行很男查看，推荐一款好用的chrome插件JSONView，可以帮帮我们格式化json数据，可以在github搜索下载）得到以下数据可以看得出来，这是一个全英雄的列表，可以通过遍历获取全英雄的id和名称
复制链接

扫一扫