1.分析网页
【1】首先,我们找到《和平精英》的游戏资料https://gp.qq.com/cp/a20190522gamedata/pc_list.shtml
,在这里我们发现有游戏中的武器、配件、物资、载具和地图等信息,本文以武器的基本信息为例进行爬取,其他信息方法类似,咱不赘述。
【2】接下来,我们检查页面,点击Network,选择XHR,然后选择第2条数据。在这里,我们发现网页中的数据都是通过json数据加载来的,而不是静态页面。
【3】我们再来分析json数据,这里可以直接看到json数据的URL,这正是我们想要的东西,同时我们也知道了该URL的Request Method是get方法,通过这些我们便可以获取武器、配件、物资、载具这些数据。
【4】但是在爬取的过程中发现,这样并不能爬取成功,于是我们再看Headers这里有没有其他需要的参数来获取json数据。在最下方找到了我们需要的parmas值,这样就可以把这里的参数添加到程序中,从而成功爬取数据。
2.获取数据
直接上代码
def get_html_text(url):
"""
获取页面json数据
:param url:
:return:
"""
headers = {
'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'}
parmas = {
'callback': 'dealCallBack',
'_': 1566815094736
}
try:
r = requests.get(url, headers=headers, params=parmas, timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
result = r.text
result = result.replace('dealCallBack(', '').replace(')', '') # 只留下"dealCallBack(……)"中间……这一部分
result = json.loads(result)
return result
except:
return ''
其中,url = ‘https://gp.qq.com/zlkdatas