作为一个篮球迷,觉得这个题目非常有意思,竞赛的网址:https://www.kaggle.com/c/kobe-bryant-shot-selection
两个kernel:
https://www.kaggle.com/dixhom/data-analysis-for-beginners/notebook
https://www.kaggle.com/selfishgene/psychology-of-a-professional-athlete
其中,第一个是基础的方案,但讲解非常清晰明白,第二个kernel则非常全面,不得不佩服作者。
———————————————————————————————————————————————————
关于第一个kernel简单说明:
———————————————————————————————————————————————————
关于第二个kernel简单说明:
1、首先对数据进行一些可视化研究,分析出一些科比投篮的特征,比如每节的最后一投的距离、命中率等;
2、选择特征,one-hot编码,并且自己构造一些特征,用Extra-Tree进行训练(结合KFold交叉验证);
3、从模型中,根据重要性得到特征的重要性,即哪些特征与结果最相关;
(这里根据结果得到哪些特征最相关,另外一些kernel则直接从训练数据特征与labels结果的皮尔森系数等
得到特征与结果的相关程度)
4、根据模型结果得到科比投篮的另外一些有意思的东西(比如科比在投进或头失一球后会继续怎么投,
会选择难度更高的还是难度更低的,会选择更远的距离还是选择更近的距离)
——————————————————————————————————————————————————