知识引入:
决策树:
决策树(Decision Tree)是一种常用的机器学习算法,它被广泛应用于分类和回归问题。决策树模型是一种树形结构,其中每个内部节点表示一个特征或属性的判断条件,每个叶节点表示一个类别标签或回归值。通过从根节点开始,按照特征的判断条件逐步向下分裂样本,最终将样本划分到不同的叶节点,从而实现对样本的分类或回归预测。
其中决策树的算法还有ID3、C4.5、、CART、CHAID、SLIQ、随机森林、梯度提升树等方法。
除此之外,决策树中用来衡量信息量的一个概念,信息熵,而其通常用来衡量样本集合的纯度或不确定度程度。公式如下:
H(X)=−∑i=1npilog2(pi)
题目:
给你一个excel表格,里面是一些篮球比赛的信息,请以’ HOME_TEAM_WINS’为目标变量,’ PTS_away’,’ FG_PCT_away’,’ FT_PCT_away’,’ FG3_PCT_away’,’ AST_away’,’ REB_away’为自变量,做决策树分析,并画出决策树可视化模型,计算其精确率,准确率,f1-score和召回率
决策树可视化:
在通过网上的资料查询后,决定使用spss来进行可视化模型的建立,这边使用了训练样本70:30来建立(通过不同的样本量对比,会带来不同的精确率,准确率,f1,召回率等不同结果)





最后通过混淆矩阵的值来进行精确率等数据的计算(计算只观察检验结果):
准确率:70.8%
精确率:72.9%
召回率:57.7%
f1-score:64.4%
至此完结。