机器学习核心算法_classcount-CSDN博客

决策树算法的概述如下：
1. 选择最佳划分属性：根据某个评价指标（如信息增益、基尼指数等），选择最佳的属性作为当前节点的划分属性。
2. 划分数据集：根据划分属性的取值，将数据集划分为多个子集，每个子集对应一个分支。
3. 递归构建子树：对每个子集，重复步骤1和步骤2，递归地构建子树，直到满足终止条件（如节点中的样本属于同一类别，或者没有更多属性可供划分）。
4. 剪枝处理：为了避免过拟合，可以对构建好的决策树进行剪枝处理，即去掉一些不必要的节点和分支。
5. 预测分类结果：根据构建好的决策树，对新样本进行分类预测。

决策树算法的优点包括易于理解和解释、能够处理离散型和连续型属性、能够处理多分类问题等。然而，决策树算法也存在一些缺点，如容易过拟合、对噪声敏感等。

树的组成

根节点：第一个选择点

非叶子节点与分支：中间过程

叶子节点：最终的决策结果

决策树的训练与测试

训练阶段：从给定的训练集构造出来一棵树（从跟节点开始选择特征，如何进行特征切分）
测试阶段：根据构造出来的树模型从上到下去走一遍就好了
一旦构造好了决策树，那么分类或者预测任务就很简单了，只需要走一遍就可以了，那么难点就在于如何构造出来一颗树，这就没那么容易了，需要考虑的问题还有很多的！

切分特征

问题：根节点的选择该用哪个特征呢？接下来呢？如何切分呢？
想象一下：我们的目标应该是根节点就像一个老大似的能更好的切分数据（分类的效果更好，根节点下面的节点自然就是二当家了
目标：通过一种衡量标准，来计算通过不同特征进行分支选择后的分类情况，找出来最好的那个当成根节点，以此类推。

衡量标准--熵

熵是表示随机变量不确定性的度量（解释：说白了就是物体内部的混乱程度，比如杂货市场里面什么都有那肯定混乱呀，专卖店里面只卖一个牌子的那就稳定多啦）
熵用来衡量一组数据的平均信息量或平均不确定性。如果数据的可能取值越多，即数据的分布越均匀，那么熵就越大；相反，如果数据的可能取值越少，即数据的分布越集中，熵就越小。
熵的计算公式可以表示为H(X) = -Σ(p(x) * log2(p(x)))，其中X是随机变量，p(x)是X取值为x的概率。这个公式将每个可能取值的概率与其对应的信息量（以2为底的对数）相乘，并对所有可能取值进行求和。熵的单位通常以比特（bit）来衡量。

熵是衡量信息或数据的不确定性和随机性的量化指标。熵的大小与不确定性成正比，即越大的熵表示数据越随机、越不确定。而越小的熵则表示数据越有序、越确定。可以将熵看作数据中所包含的信息量，当熵最大时，数据中的每个元素都是等概率出现的，难以从中获得有用的信息；而当熵最小时，数据中的每个元素都具有确定性，从中获得的信息量很小。

在机器学习中，熵经常用于衡量分类问题中的不确定性。在决策树算法中，通过计算每个特征的熵来选择分裂节点，以达到最佳的分类效果。熵可以帮助我们理解数据的分布情况和模型的性能，同时也可以作为评估模型预测结果质量的指标之一。