NBA2023-2024球员数据爬虫实战_爬虫 nba球员数据-CSDN博客

本文链接：https://blog.csdn.net/2301_76728517/article/details/142909973

一、项目背景与介绍

在篮球数据分析领域，NBA球员的统计数据是非常重要的资源。这些数据可以帮助球队分析球员表现，制定战术，同时也为篮球爱好者提供了深入了解球员表现的途径。然而，这些数据往往分散在不同的网站和数据库中，手动收集和整理这些数据既耗时又费力。因此，自动化地爬取这些数据变得尤为重要。

本项目旨在通过Python编程语言和Selenium库，自动化地从NBA官方网站爬取球员的统计数据，并将其整理成Excel表格，以便于后续的数据分析和研究。

二、爬取思路与步骤

2.1 整体思路

环境准备：安装Python环境，以及Selenium库和其他必要的库（如pandas）。
驱动设置：下载与浏览器版本相匹配的ChromeDriver，并设置路径。
页面访问：使用Selenium的webdriver访问目标URL。
数据采集：通过XPath定位球员数据，并使用循环结构采集所有球员的统计数据。
分页处理：识别分页按钮，并对每一页的数据进行采集。
数据存储：将采集的数据存储到pandas DataFrame中，并最终导出为Excel文件。

2.2 部分重要代码讲解

环境准备

首先，确保Python环境已安装，并且安装了以下库：

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException, StaleElementReferenceException
import pandas as pd

驱动设置

chrome_driver_path = './chromedriver.exe'  # 确保此路径正确
service = Service(chrome_driver_path)
driver = webdriver.Chrome(service=service)

页面访问

使用webdriver访问目标URL。

url = 'https://china.nba.cn/statistics/playerstats'
driver.get(url)

数据采集

定义一个函数scrape_data来采集球员数据。使用WebDriverWait等待表格加载完成，然后通过XPath定位并采集球员的各个统计数据。

def scrape_data():
    players_data = []
    # ...省略部分代码...
    for i in range(total_entries):
        player_data = {
            # ...省略部分代码...
        }
        players_data.append(player_data)
    return players_data

分页处理

识别分页按钮的XPath，并遍历每一页的数据。

pagination_buttons = [
    # ...省略部分代码...
]

for button_xpath in pagination_buttons:
    try:
        next_button = WebDriverWait(driver, 20).until(EC.element_to_be_clickable((By.XPATH, button_xpath)))
        next_button.click()
        # ...省略部分代码...
    except TimeoutException:
        # ...省略部分代码...

数据存储

将采集的数据存储到pandas DataFrame中，并导出为Excel文件。

df = pd.DataFrame(all_players_data)
pd.DataFrame(df).to_excel('NBA.xlsx', index=False)
print("数据已保存到 NBA.xlsx")

三、总结

通过本项目，我们成功地自动化地从NBA官方网站爬取了球员的统计数据，并将其整理成Excel表格。这个过程不仅节省了大量的时间和人力，而且提高了数据采集的准确性和效率。此外，通过使用Selenium和pandas库，我们能够灵活地处理网页数据和进行数据分析，为后续的研究和应用打下了坚实的基础。