通俗易懂--决策树算法、随机森林算法讲解(算法+案例)

本文详细介绍了决策树算法,包括ID3、C4.5和CART算法,探讨了它们的区别和信息增益的概念。接着,文章解释了随机森林的Bagging思想,强调了随机森林在提升决策树泛化能力上的优势,以及其优点和缺点。最后,提供了Python代码示例。
摘要由CSDN通过智能技术生成


寻觅互联网,少有机器学习通俗易懂之算法讲解、案例等,项目立于这一问题之上,整理一份基本算法讲解+案例于文档,供大家学习之。通俗易懂之文章亦不可以面概全,但凡有不正确或争议之处,望告知,自当不吝赐教!

GitHub地址(代码加数据)

1.决策树

1.1从LR到决策树

相信大家都做过用LR来进行分类,总结一下LR模型的优缺点:

优点
  • 适合需要得到一个分类概率的场景。

  • 实现效率较高。

  • 很好处理线性特征。

缺点
  • 当特征空间很大时,逻辑回归的性能不是很好。

  • 不能很好地处理大量多类特征。

  • 对于非线性特征,需要进行转换。

以上就是LR模型的优缺点,没错,决策树的出现就是为了解决LR模型不足的地方,这也是我们为什么要学习决策树的原因了,没有任何一个模型是万能的。

决策树的优点
  • 模拟人的直观决策规则。

  • 可以处理非线性特征。

  • 考虑了特征之间的相互作用。

其实用一下图片能更好的理解LR模型和决策树模型算法的根本区别,我们可以思考一下一个决策问题:是否去相亲,一个女孩的母亲要给这个女海介绍对象。

image

大家都看得很明白了吧!LR模型是一股脑儿的把所有特征塞入学习,而决策树更像是编程语言中的if-else一样,去做条件判断,这就是根本性的区别。

1.2“树”的成长过程

决策树基于“树”结构进行决策的,这时我们就要面临两个问题 :

  • “树”怎么长。

  • 这颗“树”长到什么时候停。

弄懂了这两个问题,那么这个模型就已经建立起来了,决策树的总体流程是“分而治之”的思想,一是自根至叶的递归过程,一是在每个中间节点寻找一个“划分”属性,相当于就是一个特征属性了。接下来我们来逐个解决以上两个问题。

这颗“树”长到什么时候停
  • 当前结点包含的样本全属于同一类别,无需划分;例如:样本当中都是决定去相亲的,属于同一类别,就是不管特征如何改变都不会影响结果,这种就不需要划分了。

  • 当前属性集为空,或是所有样本在所有属性上取值相同,无法划分;例如:所有的样本特征都是一样的,就造成无法划分了,训练集太单一。

  • 当前结点包含的样本集合为空&#x

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值