随机森林和决策树区别_机器学习算法:决策树、随机森林、k-means

本文详细介绍了决策树的原理、优化方法及优缺点,包括熵和信息增益的概念;随机森林的集成学习思想,减少过拟合的优势,以及并行化运行的特点;还探讨了k-means聚类算法的原理、应用场景和K选择策略,提到了k-means++的改进方法。
摘要由CSDN通过智能技术生成

一、决策树

1、原理:

决策数是非常常用的算法,算法原理比较容易理解,通过决策节点的条件进行判断,通过决策节点来判断走向,满足条件进入到下一个节点,决策树需要搜索到叶子节点才结束。它是一个预测模型,用于解决二分类问题。例如下图:

835fa4c14f6e7a22f9bcd44d6427111c.png
决策树举例图

2、优化方法:

如何选择决策节点的顺序,方法是怎么样的?

每个决策节点可以有多种选择,比如上图中,在第一层除了“是否取健身房”我们还可以选择“是否有好看的电影”,那么我们应该按照什么样的规则来选择,让我们的预测结果更准确呢?选择的方法有很多,这里老师介绍了一种方法,优先选择增益信息最大的决策点来生产决策树,但它不一定是全局最优解,因为没办法证明

什么是信息增益?

信息增益=父节点熵-子节点加权熵(条件熵)

什么是熵、条件熵?

常用的决策树算法有ID3, C4.5和C5.0,生成树算法使用基于度量熵。这一度量是基于信息学理论中熵的概念。

熵:是一个实数值,范围是0-1之间,代表不确定性或混乱程度的指标

  • 2
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值