感谢关注天善智能,走好数据之路↑↑↑
欢迎关注天善智能,我们是专注于商业智能BI,大数据,数据分析领域的垂直社区,学习,问答、求职一站式搞定!
本文作者:天善智能社区专家鲁伟
天善智能社区地址:https://www.hellobi.com/
作为数据科学领域的金字招牌,kaggle已成为世界上最受欢迎的数据科学竞赛平台。在kaggle上,每个竞赛题下都藏匿着大批来自世界各地并且身怀绝技的数据科学家。作为一种众包模式,kaggle通过收取部分佣金将企业的数据挖掘问题发布在平台上并设立高额奖金来吸引数据科学家来解决。每位注册参加的kaggler都可以自由获取竞赛题目和数据集,并将自己的数据分析方案以报告的形式呈现在平台上供大家讨论,最后被企业方采用的数据分析方案的参赛者将会获得一大笔奖金。
鉴于目前小编的水平,不敢贸然去参赛,生怕做出来的结果排名垫底,于是盘算着先拿几个kaggle题的数据集来练手,一方面锻炼自己的数据思维和分析能力,另一方面则是提升R或者Python的coding能力。小编这次拿来练手的数据集叫做 NBA shot log.csv(公众号后台回复“NBA”下载数据),该数据集包括了2014-15赛季NBA30支球队904场常规赛281名球员将近13万的投篮数据,数据包括比赛双方、主客场、胜负情况、投篮球员、防守球员、投篮距离、命中次数等21个变量,可自由根据分析目的来进行数据挖掘建模。小编经过几天的探索,结合了kaggle上一干数据大神们的分析方案,决定分两篇推文展现对该数据集的分析挖掘。本文主要给大家展现对该数据集的探索性数据分析(EDA)和可视化,下篇将对数据拟合一些机器学习算法来预测球员们的投篮命中率情况。kaggle中NBA shot log.csv的界面如下:
作为一名既热爱数据分析又看了十几年球的小编而言,不得不说NBA的数据实在是太适合拿来做分析了。经常看球的JRs们或许知道,休斯顿火箭队总经理莫雷就迷信一套篮球数据分析理论,坚信在数据的支撑下做出的决策是最好的决策。今年金州勇士队的夺冠和火箭成功杀入西部次轮无疑给莫雷的魔球理论提供了最好的事实证明。本篇虽然是做探索性数据分析和可视化,但无疑在分析之前我们需要拟定几个分析目标:
现今NBA球员们的投篮选择有何偏好?
球员们的投篮命中率都与哪些因素相关?
主客场真的对球员表现、球队胜负有那么大影响吗?
现今联盟里有哪些关键先生?
哪些球员防守好,哪些球员防守差?
下面我们就根据上面五大目标来用R语言对数据集做探索性数据分析与可视化。
读入数据后简单看一波数据概况:
nba_shots<-read.csv("shot_logs.csv")
dim(nba_shots) #数据量