大家好,本文将围绕梦幻西游藏宝阁爬虫脚本展开说明,梦幻西游藏宝阁爬虫是一个很多人都想弄明白的事情,想搞清楚python爬取网易藏宝阁需要先了解以下几个事情。
Source code download: 本文相关源码
爬虫的而基本步骤是什么嘞?
1.观察分析目标网页
2.解析生成图片下地址
3.下载图片
1.观察目标网站进入调试界面
按F12进入调试界面,然后按F5刷新界面。然后我们就能看到网站上的各种资源和代码了python写麦穗的代码。找到式神目录
在调试界面找到Network ,从JS/XHR/Other中寻找式神清单。最终我们在XHR中找到了名为all_shishen.json?v36 的文件。其中all_shishen.json为有效文件名称。
文件地址为:
import requests
import re
import os#导入json文件(里面有所有式神的名字及数字)
from fake_useragent import UserAgent
url='https://yys.res.netease.com/pc/zt/20161108171335/js/app/all_shishen.json'
head={'User-Agent':UserAgent().random} #随机head
html = requests.get(url,headers = head) #添加随机headers,让服务器接收请求
html_json=html.json()
all_shishen.json中某一个式神的内容
#all_shishen.json从提取英雄名字和数字
shishen_id=list(map(lambda x:x['id'],html_json)) #id 序号
shishen_level=list(map(lambda x:x['level'],html_json)) #品质
shishen_nam