R机器学习：决策树算法的理解与实操_信息增益最大化原则-CSDN博客

本文链接：https://blog.csdn.net/tm_ggplot2/article/details/144677393

今天继续给大家介绍决策树算法，决策树本身是一种非常简单直观的机器学习算法，用于做分类或回归任务。它就像我们平常做决定时的过程，通过逐步排除可能的选项，最终得出结论。

A decision tree is a flowchart-like structure used to make decisions or predictions. It consists of nodes representing decisions or tests on attributes, branches representing the outcome of these decisions, and leaf nodes representing final outcomes or predictions.

一个典型的决策树的决策过程如下图：

从上图可以看到一个树的结构包括：

根节点（Root Node）: 代表决策过程要问的第一个问题。
内部节点（Internal Nodes）: 代表依据特征决策的后续过程，每一个节点根据结果有不同的分支。
分支（Branches）: 代表决策的结果，通常会指向下一个节点。
叶节点（Leaf Nodes）: 代表最终决策结果，叶节点不会出现分支。

可以看出来决策树至少有两个优点：一是直观易懂： 决策树的结构就像一棵树，每个节点代表一个属性测试，每条边代表一个测试结果，叶子节点代表最终的分类结果。这种结构非常符合人类的思维方式，让我们很容易理解模型是如何做出决策的。二是可解释性强： 通过观察决策树，我们可以清晰地看到哪些特征对分类结果影响最大，从而帮助我们更好地理解数据。

理解决策树

决策树有一连串的节点，所有的特征属性其实都可以用来划分支，这个时候至少有两个问题需要弄明白:选择哪些特征作为节点？如何对相应特征进行划分？

选择哪个特征作为节点的时候有一个原则就是先用对模型贡献最大的特征来划分节点，贡献的评估标准有很多：

第一个熵值Entropy:这个熵值是度量数据的不纯度的amount of uncertainty or impurity，我们记住熵值越大数据越不纯就好。那么按照熵值的标准我们希望通过节点后形成的分支数据越纯越好，对应的就是熵值越小越好。

第二个信息增益Information Gain:这个是数据划分前的熵值和通过节点划分后的平均熵值的差，刚刚说了熵值越小越好，那么这个差值应该是越大越好，也就是信息增益越大越好。

it is calculated by computing the total difference between the entropy before split and average entropy after the split of dataset based on the given attribute values.

第三个的基尼纯度Gini Impurity：