爬lol全英雄皮肤

初学爬虫简单的爬取一下lol全英雄皮肤,自己写的,和网上CV的好不一样,觉得文章说得过去的记得留下足迹。

分析页面

1.英雄列表
首先在英雄页面找到hero_list.js;至于为什么是这个文件,看图:
在这里插入图片描述
观察该文件响应头,获取访问的url,打开新的窗口,访问该链接,能获取对应数据。(这边显示在一行很男查看,推荐一款好用的chrome插件JSONView,可以帮帮我们格式化json数据,可以在github搜索下载)
在这里插入图片描述
得到以下数据
在这里插入图片描述
可以看得出来,这是一个全英雄的列表,可以通过遍历获取全英雄的id和名称。

  1. 英雄皮肤
    我们获得了英雄列表数据,接下来就是获取各个英雄皮肤数据,老规矩查找有skins对应数据的文件
    在这里插入图片描述
    查看响应头,很简单的可以看出来,这个url只有末尾的id不一样
    在这里插入图片描述
    新开窗口查看url内容
    在这里插入图片描述
    有我们需要的mainImg链接,于是,事情就简单了

爬虫实现

遍历英雄列表,再遍历对应的皮肤列表,挨个保存。看代码吧,不复杂,所以我把说明放在了代码里

import requests
import json
import os

# 定义一个获取图片名称的方法,因为有一些皮肤名称包含“/”,会出错。
# 小贴士:replace不会修改原字符串,需要重新赋值
def get_img_name(i):
    img_name = detail_dict.get("skins")[i]["name"]
    img_name = img_name.replace('/', '-')
    return img_name
    
# url1是英雄列表的url
url1 = "https://game.gtimg.cn/images/lol/act/img/js/heroList/hero_list.js"
headers = { 
            "User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1"
            }

os.mkdir("lol")     # 先创建一个lol目录

# 访问页面,回去信息
res = requests.get(url1, headers=headers)
# 将字符串加载成字典
# 小贴士: loads和dumps经常搞混的可以这样记:loads是加载的意思,对应将字符串加载成字典。(这样一来还是很好记忆的,至少我这么认为)
content = json.loads(res.content)    

# 遍历所有英雄
for i in range(len(content.get("hero"))):
    # 1. 获取英雄名称并且创建对应英雄目录 ----- 格式如:黑暗之女-安妮
    hero_first = content.get("hero")[i]["name"]
    hero_last = content.get("hero")[i]["title"]
    hero_name = hero_first+"-"+hero_last
    os.mkdir("lol/"+hero_name)
    # 2. 获取英雄id,拼接url
    hero_id = content.get("hero")[i]["heroId"]
    url_detail = "https://game.gtimg.cn/images/lol/act/img/js/hero/"+hero_id+".js"
    # 3. 访问英雄详细
    detail = requests.get(url_detail, headers=headers)
    detail_dict = json.loads(detail.content)            # 将字符串加载成字典
    # 4. 遍历该英雄的所有皮肤
    for i in range(len(detail_dict.get("skins"))):
        # 如果图片存在,爬取图片(因为在英雄列表中有很多空的图片)
        if detail_dict.get("skins")[i]["mainImg"]:
            img_url = detail_dict.get("skins")[i]["mainImg"]
            img = requests.get(img_url, headers=headers)
            img_name = get_img_name(i)
            with open("lol/"+hero_name+"/"+img_name+".jpg", "wb") as f:
                f.write(img.content)

这样子,讲道理就已经可以实现了,是不是很简单。这边还没有做代码优化,没有协程面向对象的形式,而且效率讲真的有点低,等再深造几天,回来再做补充。觉得文章还说得过去的,记得留下小小足迹o。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值