机器学习课程第四章学习总结

机器学习课程第章学习总结

在机器学习课程第四章中,Up主深入探讨了决策树的算法原理。本节课的内容主要包括了自信息、信息熵等决策树基本概念,以及三种决策树:ID3决策树、C4.5决策树和CART决策树,为我们提供了对决策树算法的全面理解。

一、决策树引入

决策树是一种直观运用概率分析的图解法,这种方法的基础是决策分支画成图形很像一棵树的枝干,因此称为决策树。

决策树是在已知各种情况发生概率的基础上,通过构成决策树来求取期望值大于等于零的概率,从而判断其可行性的决策分析方法。在机器学习中,决策树是一个预测模型,它代表的是对象属性与对象值之间的一种映射关系。Up主分别从逻辑和几何的角度,简明的阐述了决策树的算法原理,其最终目标是将样本“提纯”。

、决策树基本概念

ID3决策树、C4.5决策树和CART决策树涉及到熵的度量概念,这一度量概念是从信息学理论中引入的,而信息熵正是衡量样本纯度的重要工具。在机器学习中,信息熵用于描述一个样本集合的不确定性和混乱程度。对于一个样本集合,如果其中所有的样本都属于同一类别,那么这个样本集合的信息熵为最小值;反之,如果样本集合中的样本类别分布均匀,则信息熵为最大值。在后续决策树算法中,信息熵可以用于确定每个节点处进行分裂的依据,即选择哪个特征进行分裂能够最大程度地降低信息熵。

单一使用信息熵衡量标准可能由于样本数不同而产生数据偏见,不利于我们做出正确的决策。因此引入了固有值这一概念以及启发式方法,有效的平衡了样本数不同对决策造成的不利影响。

此外,在CART决策树中还引入了基尼值这一概念,其从另一个角度描述一个样本集合的不确定性和混乱程度。基尼值越小,数据的纯度越高,特征越好。

、ID3决策树

ID3算法基于信息增益来选择分裂特征,即在每个节点处选择能够最大程度降低信息熵的特征进行分裂。ID3算法通过递归地构建决策树来对训练数据进行分类或回归预测。ID3算法的优点是简单易懂,但其缺点是对于某些数据集可能存在过拟合问题,即上述提到的数据偏见问题。

、C4.5决策树

C4.5算法可以看作ID3算法的改进版。与ID3算法相比,C4.5算法引入了增益率的概念,用增益率代替了信息增益,其综合考虑信息增益和分裂特征的不确定性来选择分裂特征,因此,C4.5算法对于复杂数据集具有较强的鲁棒性,但其有计算复杂度较高的缺点。

、CART决策树

CART(Classification and Regression Trees)决策树是一种常用的分类和回归模型,通过递归地构建二叉树来对数据进行分类或回归预测,通过选择能够最大程度降低基尼指数的特征进行分裂,以达到最佳的分类或回归效果。其优点是简单易懂、易于实现且具有良好的鲁棒性,但其缺点是可能对于某些数据集会存在过拟合问题。

总结

总的来说,第四章的内容为我们提供了对决策树算法的深入理解。通过学习上述内容,我们可以更好地掌握决策树算法的原理和应用。同时,这些内容也为我们提供了进一步探索机器学习领域的机会和动力。在未来的学习和实践中,我们可以进一步应用这些知识来解决实际问题,并提高机器学习的性能和准确性。通过应用决策树算法,我们可以更好地理解和分析数据,从而做出更准确的预测和决策。此外,决策树算法还可以与其他机器学习算法相结合,以实现更复杂的数据分析和预测任务。

最后,附上视频链接:https://www.bilibili.com/video/BV1Mh411e7VU?p=7

七、参考文献

[1] Quinlan, J. R. (1986). Induction of Decision Trees. Machine Learning, 1(1), 81-106.

[2] Quinlan, J. R. (1993). C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers Inc.

[3] Breiman, L., Friedman, J., Stone, C. J., & Olshen, R. A. (1984). Classification and Regression Trees (CART). Wadsworth, Inc.

[4] 周志华. 机器学习[M]. 北京: 清华大学出版社, 2016.

[5] 二次元的Datawhale. 第4章-决策树[EB/OL]. (2021-06-06)[2023-12-19]. https://www.bilibili.com/video/BV1Mh411e7VU?p=7.

  • 33
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值