本文收集了一系列科比的数据,有投篮位置,投进二分、三分球个数,比赛剩余时间,对手是谁等等来预测科比是否进球。主要是想通过本例来认识一下pandas在数据处理方面强大的功能 。数据集有需要的可以联系我qq:1344184686
一、导入需要用到的包,读入数据集
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
#读入数据
data = pd.read_csv("data.csv")
#显示大小
data.shape
#显示头部,默认前5行
data.head()
#显示尾部
data.tail()
#显示前k行数据
data.head(k)
#显示具体位置的数据,如a到b行之间的数据
data.loc[a:b]
二、数据清洗
首先去掉标签为缺失值的数据
#保留标签不为缺失值的数据
data = data[pd.notnull(data['shot_made_flag'])]
#查看一下有多少有标签的数据,即有用的数据
data.shape
通过对数据的分析,发现特征既有科比投篮的位置坐标loc_x,loc_y又有经度lat,纬度lon,猜测这两组特征重复,我们就来对比一下: