科比数据集分析与预测

32 篇文章 450 订阅 ¥9.90 ¥99.00
本文通过科比的投篮数据,利用pandas进行数据清洗和预处理,包括去除重复特征,进行one-hot编码,然后构建训练集和测试集,采用随机森林模型进行预测,并对模型进行评估。
摘要由CSDN通过智能技术生成

本文收集了一系列科比的数据,有投篮位置,投进二分、三分球个数,比赛剩余时间,对手是谁等等来预测科比是否进球。主要是想通过本例来认识一下pandas在数据处理方面强大的功能 。数据集有需要的可以联系我qq:1344184686

一、导入需要用到的包,读入数据集

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

#读入数据
data = pd.read_csv("data.csv")

#显示大小
data.shape

#显示头部,默认前5行
data.head()

#显示尾部
data.tail()

#显示前k行数据
data.head(k)

#显示具体位置的数据,如a到b行之间的数据
data.loc[a:b]

二、数据清洗

首先去掉标签为缺失值的数据

#保留标签不为缺失值的数据
data = data[pd.notnull(data['shot_made_flag'])]

#查看一下有多少有标签的数据,即有用的数据
data.shape

通过对数据的分析,发现特征既有科比投篮的位置坐标loc_x,loc_y又有经度lat,纬度lon,猜测这两组特征重复,我们就来对比一下:

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

东城青年

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值