python 爬取新浪网站 NBA球员最近2个赛季库里前20场数据

本文介绍了如何使用Python爬虫技术抓取新浪网站上关于NBA球员库里过去两个赛季的前20场比赛数据。首先分析了网站数据获取方式,揭示了其动态请求的特点,然后详细讲解了通过POST方法请求数据所需的URL和Form Data参数。最后,文章提到了编写爬虫代码前需要掌握的技能,包括使用urllib2请求、处理JSON数据、操作Excel、理解和使用字典以及循环语句。
摘要由CSDN通过智能技术生成

1. 分析新浪网站中球员数据的获取方式(F12 开发者模式,调试网页):

一般网站保存数据的方式分为2种:1. 静态网页存储;2. 动态请求;

对于静态网页存储来说,就是打开浏览器中查看源码,就可以从源码中获取所需要的数据;

对于动态请求来说,采用F12的开发者模式中,才能从服务器的response 中查看到data数据。

查看该网址的源码:https://slamdunk.sports.sina.com.cn/player/query?pid=8ec91366-faea-4196-bbfd-b8fab7434795,发现无法从网页中获取数据,故该网站采用的是动态请求。

对于动态请求有2中方式:1. Get方式;2. Post方式;其中Post方式需要url以及提交参数。

        举例说明,采用F12分析上述网址,得到如下内容,其中该网址采用POST方式,用python请求时,需要将URL和Form Data一起提交给服务器:

1.General:
Request URL:https://slamdunk.sports.sina.com.cn/api?p=radar&s=summary&a=search&limit=10?callback=ijax_1512828812920_72693455
Request Method:POST
Status Code:200 OK
Remote Address:111.13.87.205:443
2.Form Data:
page:1
pid:8ec91366-faea-4196-bbfd-b8fab7434795
type:REG
tid:583ec825-fb46-11e1-82cb-f4ce4684ea4c
season1:2017

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值