科比生涯数据分析——利用随机森林进行分类

最新推荐文章于 2022-08-02 17:40:04 发布

英雄不问出处Prome

最新推荐文章于 2022-08-02 17:40:04 发布

阅读量2k

点赞数 1

分类专栏：机器学习文章标签：随机森林机器学习

本文链接：https://blog.csdn.net/qq_43713573/article/details/87983930

版权

本文通过对科比篮球生涯的数据进行分析，利用随机森林进行分类，探讨射门位置、时间等因素对投篮成功率的影响。首先进行数据读取与介绍，接着进行特征数据可视化展示，然后进行数据预处理，包括创建新特征和处理缺失值。在模型建立阶段，使用scikit-learn的随机森林算法，并寻找最佳参数，如树的数量和深度，以提高预测准确性。

摘要由CSDN通过智能技术生成

1.数据读取与介绍

导入相关库及模块

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import KFold

利用pandas进行数据读取，通过info()函数了解该数据的大致信息

file_name='data.csv'
data=pd.read_csv(file_name)
print('****该数据的大致信息如下****')
print(data.info())

在这里插入图片描述

打印前五行数据

data.head()

在这里插入图片描述

获取该数据的行数与列数

print('该数据共有{}条记录，{}个特征项'.format(data.shape[0],data.shape[1]))

输出为：该数据共有30697条记录，25个特征项
通过以上结果显示，我们得到：该数据在shot_made_flag字段上缺失值较多，且该字段为标签项，0表示未射入球门，1表示摄入球门，所以需删去shot_made_flag项为NaN的记录行。

data=data[data['shot_made_flag'].notnull()]
data.info()

2.特征数据可视化展示

将射球时相对于球门的位置(loc_x,loc_y)，(lat,lon)在图形中展示出来

#设置画布大小
plt.figure(figsize=(12,12))
#画第一个子图
plt.subplot(121)
plt.title('the location of the shot')
plt.xlabel('loc_x')
plt.ylabel('loc_y')
plt.scatter(data['loc_x'], data['loc_y'], color='g', alpha = 0.02)
#画第二个子图
plt.subplot(122)
plt.title('the site of the shot')
plt.xlabel('longitude')#经度
plt.ylabel('latitude')#纬度
plt.scatter(data['lon']