当NBA球星遇上机器学习……

640?wx_fmt=jpeg

全文共4423字,预计学习时长12分钟

640?wx_fmt=jpeg
来源:tuxi

我喜欢篮球。 我喜欢打篮球、看篮球、谈篮球。 有时候我会和朋友们谈论诸如“如果科比和勒布朗单挑谁会赢”之类的话题。 我需要用这次机器学习项目,将我的两个爱好,篮球和数据科学有机地结合起来。
 
去年夏天,金州勇士队转出连续斩获两届NBA决赛MVP(最有价值球员奖)的凯文·杜兰特,引入德安格洛·拉塞尔。 于是体育分析员纷纷开始猜测拉塞尔在勇士队的适配程度,如下:
 
640?wx_fmt=png
来源:clutchpoints
 
这也让我开始思考: 德安格洛·拉塞尔将如何适应勇士队的节奏? 能不能运用机器学习将NBA球员分类,并预测某一球员与指定球队的兼容程度?
 
本项目的研究目的是,确定若干球员的类型,并根据历史活动或他们对空间的利用确定他们在球场上扮演的角色。
 
得分、篮板、助攻、抢断、盖帽等数据不会被用作特征,因为它们依赖于例如出场时间或进球数量等数据(这项数据也不会出现在特征中)。 将得分、篮板、助攻、抢断、盖帽等数据作为特征可能会使最终结果与这些特征密切相关,这就偏离了本次项目的初衷。 我将在下文的研究方法部分详细列举所有的特征。
   640?wx_fmt=jpeg

数据


我们来看一看数据部分。
 
数据是由Python和Selenium包从stats.nba.com 提取加工而成。 选取的特征大部分都基于上场频率。 很多打法都包含进攻和防守站位。 比如说,“进攻背身单打率”指该球员背身单打时在进攻位的频率; “防守背身单打率” 指该球员背身单打时在防守位的频率。 这些特征的 附释,可以参考此链接:https://stats.nba.com/help/glossary/ 。
 
样本数据: 272名球员
 
初始数据集包含531名球员。 而后上场时间少于半个赛季及1000分钟的球员被移出样本数据。 这样做的原则是,去除所有出场不稳定的球员。 以下是完整的球员样本名单:
 
640?wx_fmt=png
球员名单
 
选取特征: 41个
 
筛选之前特征总数超过600。 最后选取了描述落位和运球的特征。
 
640?wx_fmt=png
特征列表
 
研究方法和模型选择
 
由于本项目属于无监督学习,它得出的结果需要进一步分析。 我在模型和簇数选择上有两个目标:
 
1.      突出簇之间的显著差异。 簇数太少,每个簇中样本太多,不能得出各个球员间的风格差异。
2.       避免簇数过多。 如果每个球员都是一个簇,结果只能表明每一个人都是独立的个体,这对研究的帮助很小。
 
模型选择:  DBSCAN, K-means和Mean Shift
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值