机器学习——决策树与随机森林

最新推荐文章于 2023-07-19 17:21:42 发布

诺亚废船

最新推荐文章于 2023-07-19 17:21:42 发布

阅读量1.2k

点赞数 1

分类专栏： Machine Learning&Deep Learning

本文链接：https://blog.csdn.net/m0_37752335/article/details/77649789

版权

机器学习——决策树与随机森林

1.决策树的主要元素：根节点、内部节点、叶节点。其中根节点聚集了所有的样本，内部节点表示根据某个特征进行分类，叶节点根据节点内样本数最多的那一类作为输出。

2.决策树的主要处理方式：根据信息增益、信息增益率或者基尼系数这三个指标来选取局部最优的分类特征。

3.决策树由于是递归过程，所以会出现过拟合现象。需要通过剪枝来使得模型的泛化能力增强。

4.决策树主要形式有分类决策树、回归决策树，针对因变量是分类型变量还是连续型变量。

决策树的主要三个算法，主要的区别在于选择特征的标准。
1. ID3算法（信息增益）
2. C4,5算法（信息增益率）
3. CART算法（基尼系数）

信息增益的理论知识：
1.信息熵
2.条件熵
3.互信息

条件熵

信息增益（互信息）

ID3就是通过对所有特征进行信息增益（互信息）的比较，选择使得信息增益最大的变量作为分类特征。

以上是理论指标的定义，在实际样本中，有经验熵，经验条件熵的定义。
经验熵：设样本为D&

最低0.47元/天解锁文章

诺亚废船

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习——决策树与随机森林

机器学习——决策树与随机森林1.决策树的主要元素：根节点、内部节点、叶节点。其中根节点聚集了所有的样本，内部节点表示根据某个特征进行分类，叶节点根据节点内样本数最多的那一类作为输出。2.决策树的主要处理方式：根据信息增益、信息增益率或者基尼系数这三个指标来选取局部最优的分类特征。3.决策树由于是递归过程，所以会出现过拟合现象。需要通过剪枝来使得模型的泛化能力增强。4.决策树主要形式有分类决策树、回归
复制链接

扫一扫

专栏目录