requests+re模块,爬取《和平精英》武器信息

requests+re模块,爬取《和平精英》武器信息

1.分析网页

【1】首先,我们找到《和平精英》的游戏资料https://gp.qq.com/cp/a20190522gamedata/pc_list.shtml,在这里我们发现有游戏中的武器、配件、物资、载具和地图等信息,本文以武器的基本信息为例进行爬取,其他信息方法类似,咱不赘述。
游戏资料页面

【2】接下来,我们检查页面,点击Network,选择XHR,然后选择第2条数据。在这里,我们发现网页中的数据都是通过json数据加载来的,而不是静态页面。
检查页面

【3】我们再来分析json数据,这里可以直接看到json数据的URL,这正是我们想要的东西,同时我们也知道了该URL的Request Method是get方法,通过这些我们便可以获取武器、配件、物资、载具这些数据。
请求头的基本信息

【4】但是在爬取的过程中发现,这样并不能爬取成功,于是我们再看Headers这里有没有其他需要的参数来获取json数据。在最下方找到了我们需要的parmas值,这样就可以把这里的参数添加到程序中,从而成功爬取数据。
请求头中需要的参数

2.获取数据

直接上代码

def get_html_text(url):
    """
    获取页面json数据
    :param url:
    :return:
    """
    headers = {
   'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'}
    parmas = {
   
        'callback': 'dealCallBack',
        '_': 1566815094736
    }
    try:
        r = requests.get(url, headers=headers, params=parmas, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        result = r.text
        result = result.replace('dealCallBack(', '').replace(')', '')  # 只留下"dealCallBack(……)"中间……这一部分
        result = json.loads(result)
        return result
    except:
        return ''

其中,url = ‘https://gp.qq.com/zlkdatas

  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值