机器学习——决策树知识点总结

最新推荐文章于 2022-03-27 09:52:04 发布

阿拉灯神阿丁

最新推荐文章于 2022-03-27 09:52:04 发布

阅读量1k

点赞数

分类专栏：机器学习，决策树，随机森林，信息增益，剪枝文章标签：机器学习决策树随机森林信息增益剪枝

本文链接：https://blog.csdn.net/qq_34896915/article/details/72964963

版权

本文详细介绍了决策树算法，包括其特性、优缺点、特征选择的依据信息增益和信息增益比，以及决策树的生成和剪枝过程。重点讨论了ID3、C4.5和CART算法，特别提到了CART算法中使用基尼指数选择特征和最小二乘回归树的生成。此外，文章还探讨了随机森林作为决策树集成方法的优点和避免过拟合的策略。

摘要由CSDN通过智能技术生成

 
 一、决策树阐述、特性、优缺点： 

  1.阐述、特性： 

  决策树是一种基本的分类和回归算法，主要包含三个部分：特征选择、决策树的生成和剪枝。 

  首先，决策树的构成是由和边，结点包括内部结点和外部结点，内部结点表示特征，外部结点表示类别。 

  其次，决策树学习本质是从训练数据中归纳出一组分类规则，使它与训练数据矛盾较小的同时具有较强的泛化能力。另一个数学角度：由训练数据集估计条件概率，是一种判别式模型。 

  损失函数是正则化的极大似然函数。学习的策略是损失函数最小化。（NP难问题，通常采用启发式算法，SMO就是一个启发式算法，包括特、生、剪三个步骤） 

  最后，决策树算法思想是递归的选择最有特征，根据最优特征对数据进行分割，这一过程对应着决策树的构建和特征空间的划分。 

  决策树有可能产生过拟合，所以需要剪枝，减去过于细分的结点。 

  2、优缺点 

 
 优点：构造简单、判别速度快； 对数据不需要任何加工； 对于unbalance 的数据效果好。 

 
 缺点：泛化能力差，容易过拟合； 对新增的样本，需要调整整棵树的结构。 

 
 二、特征选择： 

  特征选择的准则是：信息增益或信息增益比，选择使信息增益最大的特征分割。 

关注

专栏目录

机器学习——决策树 知识点总结