系列背景:
从周志华机器学习第四章开始,总结每章的知识点。
非科班,能源工科,复习过考研微积分,线性代数,概率论。机器学习小白。
所以总结机器学习方法的思想,尽量不涉及数学工具,如矩阵微分、奇异值分解、凸优化、概率论共轭分布、KL散度等(书中附录)。
结构简单,问题导向,每个问题分为:问题,思想,其他方法和比较,具体方法,思考,其他。
“?”为自己提出的一些问题,欢迎大家提出自己的想法
欢迎讨论
第四章 决策树
1.问题:分类问题
解决:决策树
思想:模仿人根据事物属性对事物分类的过程
其他方法和比较:分类方法还有对数几率回归、线性判别分析LDA。几种方法有什么优缺点,适用于什么情况?
具体方法:决策树的组成有样例集,属性集,测试节点,叶节点。对于每一个测试节点,选择一个属性对样例集进行判断,会有下面三种执行情况:(1)如果样例集为空,则将该测试节点定义为叶节点,用父节点的样例数量较多的类作为该测试节点的标签(基于先验分布?)(2)如果样例集全部属于同一类,则将该测试节点定义为叶节点,该类作为该测试节点的标签(基于后验分布?)(3)如果不属于上述两种,则在该测试节点产生分