R机器学习:决策树算法的理解与实操

今天继续给大家介绍决策树算法,决策树本身是一种非常简单直观的机器学习算法,用于做分类或回归任务。它就像我们平常做决定时的过程,通过逐步排除可能的选项,最终得出结论。

A decision tree is a flowchart-like structure used to make decisions or predictions. It consists of nodes representing decisions or tests on attributes, branches representing the outcome of these decisions, and leaf nodes representing final outcomes or predictions.

一个典型的决策树的决策过程如下图:

从上图可以看到一个树的结构包括:

  1. 根节点(Root Node): 代表决策过程要问的第一个问题。
  2. 内部节点(Internal Nodes): 代表依据特征决策的后续过程,每一个节点根据结果有不同的分支。
  3. 分支(Branches): 代表决策的结果,通常会指向下一个节点。
  4. 叶节点(Leaf Nodes): 代表最终决策结果,叶节点不会出现分支。

可以看出来决策树至少有两个优点:一是直观易懂: 决策树的结构就像一棵树,每个节点代表一个属性测试,每条边代表一个测试结果,叶子节点代表最终的分类结果。这种结构非常符合人类的思维方式,让我们很容易理解模型是如何做出决策的。二是可解释性强: 通过观察决策树,我们可以清晰地看到哪些特征对分类结果影响最大,从而帮助我们更好地理解数据。

理解决策树

决策树有一连串的节点,所有的特征属性其实都可以用来划分支,这个时候至少有两个问题需要弄明白:选择哪些特征作为节点?如何对相应特征进行划分?

选择哪个特征作为节点的时候有一个原则就是先用对模型贡献最大的特征来划分节点,贡献的评估标准有很多:

第一个熵值Entropy:这个熵值是度量数据的不纯度的amount of uncertainty or impurity,我们记住熵值越大数据越不纯就好。那么按照熵值的标准我们希望通过节点后形成的分支数据越纯越好,对应的就是熵值越小越好。

第二个信息增益Information Gain:这个是数据划分前的熵值和通过节点划分后的平均熵值的差,刚刚说了熵值越小越好,那么这个差值应该是越大越好,也就是信息增益越大越好

it is calculated by computing the total difference between the entropy before split and average entropy after the split of dataset based on the given attribute values.

第三个的基尼纯度Gini Impurity:

Gini Index is a metric to measure how often a randomly chosen element would be incorrectly identified.

可以用以上三个标准决定使用哪个特征以及特征使用的先后顺序,具体标准总结如图:

不同的模型贡献评估标准又形成

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

公众号Codewar原创作者

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值