决策树学习过程记录
要求
给你一个excel表格,里面是一些篮球比赛的信息,请以’ HOME_TEAM_WINS’为目标变量,’ PTS_away’,’ FG_PCT_away’,’ FT_PCT_away’,’ FG3_PCT_away’,’ AST_away’,’ REB_away’为自变量,做决策树分析,并画出决策树可视化模型,计算其精确率,准确率,f1-score和召回率
部分表格
其中黄色背景的是自变量,红色字体是因变量(标签值)
篮球比赛信息
决策树
决策树分析
通过"篮球比赛"这一信息可以搜索到excel文档中各类专业术语的意思,这样就可以有方向开始分析了
根据查询到的专有名词的含义可以判断出标签值,即Home_Team_Wins,决定比赛的胜负的属性"基尼系数"从高到低:PTS > FG > FG3 > (AST ? REB ? FT)
ps:信息熵与信息增益也能用来判断先后但是公式稍微复杂点
画决策树的时候舍弃了几个属性追求美观(画图时选择深度为4)
决策树可视化模型
过程以及结果
我这里用的是SPSS
通常选择训练样本为70,测试样本为30
最后可以做出混淆矩阵(只看测试集)来计算准确率,精确率以及召回率
准确率:72.8%
精确率:75.7%
召回率:79.0%
F1-score: 77.3%
参考资料:
篮球术语参考网站
https://zhuanlan.zhihu.com/p/130496590
一文看懂决策树(Decision Tree)知乎
https://zhuanlan.zhihu.com/p/133838427
决策树(信息熵、信息增益、信息增益率、基尼指数) 知乎
https://zhuanlan.zhihu.com/p/577638501
【数据挖掘】决策树零基础入门教程,手把手教你学决策树!
https://www.bilibili.com/video/BV1T7411b7DG/?spm_id_from=333.788.top_right_bar_window_history.content.click&vd_source=e7e7d25f036cea90ae8819627a7d3baa
【机器学习】入门系列,五分钟搞懂如何评价二分类模型!混淆矩阵、召回率、精确率、准确率超简单解释,入门必看!
https://www.bilibili.com/video/av79992150/?vd_source=e7e7d25f036cea90ae8819627a7d3baa
spss决策树模型实操
https://www.bilibili.com/video/BV1hQ4y1c7J1/?spm_id_from=333.337.search-card.all.click&vd_source=e7e7d25f036cea90ae8819627a7d3baa