python 爬取新浪网站 NBA球员最近2个赛季库里前20场数据

w1012747007

于 2017-12-09 22:37:22 发布

阅读量1.7k

点赞数 1

分类专栏： python 文章标签：爬虫

本文链接：https://blog.csdn.net/w1012747007/article/details/78761995

版权

本文介绍了如何使用Python爬虫技术抓取新浪网站上关于NBA球员库里过去两个赛季的前20场比赛数据。首先分析了网站数据获取方式，揭示了其动态请求的特点，然后详细讲解了通过POST方法请求数据所需的URL和Form Data参数。最后，文章提到了编写爬虫代码前需要掌握的技能，包括使用urllib2请求、处理JSON数据、操作Excel、理解和使用字典以及循环语句。

摘要由CSDN通过智能技术生成

1. 分析新浪网站中球员数据的获取方式(F12 开发者模式，调试网页)：

一般网站保存数据的方式分为2种：1. 静态网页存储；2. 动态请求；

对于静态网页存储来说，就是打开浏览器中查看源码，就可以从源码中获取所需要的数据；

对于动态请求来说，采用F12的开发者模式中，才能从服务器的response 中查看到data数据。

查看该网址的源码：https://slamdunk.sports.sina.com.cn/player/query?pid=8ec91366-faea-4196-bbfd-b8fab7434795，发现无法从网页中获取数据，故该网站采用的是动态请求。

对于动态请求有2中方式：1. Get方式；2. Post方式；其中Post方式需要url以及提交参数。

举例说明，采用F12分析上述网址，得到如下内容，其中该网址采用POST方式，用python请求时，需要将URL和Form Data一起提交给服务器：

1.General:
Request URL:https://slamdunk.sports.sina.com.cn/api?p=radar&s=summary&a=search&limit=10?callback=ijax_1512828812920_72693455
Request Method:POST
Status Code:200 OK
Remote Address:111.13.87.205:443
2.Form Data:
page:1
pid:8ec91366-faea-4196-bbfd-b8fab7434795
type:REG
tid:583ec825-fb46-11e1-82cb-f4ce4684ea4c
season1:2017