初学爬虫简单的爬取一下lol全英雄皮肤,自己写的,和网上CV的好不一样,觉得文章说得过去的记得留下足迹。
分析页面
1.英雄列表
首先在英雄页面找到hero_list.js;至于为什么是这个文件,看图:
观察该文件响应头,获取访问的url,打开新的窗口,访问该链接,能获取对应数据。(这边显示在一行很男查看,推荐一款好用的chrome插件JSONView,可以帮帮我们格式化json数据,可以在github搜索下载)
得到以下数据
可以看得出来,这是一个全英雄的列表,可以通过遍历获取全英雄的id和名称。
- 英雄皮肤
我们获得了英雄列表数据,接下来就是获取各个英雄皮肤数据,老规矩查找有skins对应数据的文件
查看响应头,很简单的可以看出来,这个url只有末尾的id不一样
新开窗口查看url内容
有我们需要的mainImg链接,于是,事情就简单了
爬虫实现
遍历英雄列表,再遍历对应的皮肤列表,挨个保存。看代码吧,不复杂,所以我把说明放在了代码里
import requests
import json
import os
# 定义一个获取图片名称的方法,因为有一些皮肤名称包含“/”,会出错。
# 小贴士:replace不会修改原字符串,需要重新赋值
def get_img_name(i):
img_name = detail_dict.get("skins")[i]["name"]
img_name = img_name.replace('/', '-')
return img_name
# url1是英雄列表的url
url1 = "https://game.gtimg.cn/images/lol/act/img/js/heroList/hero_list.js"
headers = {
"User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1"
}
os.mkdir("lol") # 先创建一个lol目录
# 访问页面,回去信息
res = requests.get(url1, headers=headers)
# 将字符串加载成字典
# 小贴士: loads和dumps经常搞混的可以这样记:loads是加载的意思,对应将字符串加载成字典。(这样一来还是很好记忆的,至少我这么认为)
content = json.loads(res.content)
# 遍历所有英雄
for i in range(len(content.get("hero"))):
# 1. 获取英雄名称并且创建对应英雄目录 ----- 格式如:黑暗之女-安妮
hero_first = content.get("hero")[i]["name"]
hero_last = content.get("hero")[i]["title"]
hero_name = hero_first+"-"+hero_last
os.mkdir("lol/"+hero_name)
# 2. 获取英雄id,拼接url
hero_id = content.get("hero")[i]["heroId"]
url_detail = "https://game.gtimg.cn/images/lol/act/img/js/hero/"+hero_id+".js"
# 3. 访问英雄详细
detail = requests.get(url_detail, headers=headers)
detail_dict = json.loads(detail.content) # 将字符串加载成字典
# 4. 遍历该英雄的所有皮肤
for i in range(len(detail_dict.get("skins"))):
# 如果图片存在,爬取图片(因为在英雄列表中有很多空的图片)
if detail_dict.get("skins")[i]["mainImg"]:
img_url = detail_dict.get("skins")[i]["mainImg"]
img = requests.get(img_url, headers=headers)
img_name = get_img_name(i)
with open("lol/"+hero_name+"/"+img_name+".jpg", "wb") as f:
f.write(img.content)
这样子,讲道理就已经可以实现了,是不是很简单。这边还没有做代码优化,没有协程面向对象的形式,而且效率讲真的有点低,等再深造几天,回来再做补充。觉得文章还说得过去的,记得留下小小足迹o。