机器学习(9)--决策树和随机森林

本文深入探讨了决策树的概念、信息熵、信息增益等核心原理,并通过sklearn库展示了如何实现决策树。接着,文章介绍了随机森林这一集成学习方法,解析了其工作原理和优势,包括在大数据集上的高效性和处理高维特征的能力。最后,提到了随机森林的超参数调整及其在特征重要性分析中的应用。
摘要由CSDN通过智能技术生成

一、决策树

认识:决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-then结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法

举例说明:

 案例一:

案例二: 如何去划分是否能得到贷款?

案例三:

 

用信息论讨论,信息的单位是比特

信息熵

开放信息和不开放任何信息,概率不同,得到信息的代价小一些,信息熵就是一种代价

因为信息不能为负,所以计算往往要加负号

 “谁是世界杯冠军”的信息量应该比5比特少。

香农指出,它的准确信息量应该是: H = -(p1logp1 + p2logp2 + ... + p32log32)

 

 

信息熵大,不确定性大,正比关系 

有些决策标准放的越早,不确定性减小的越多,因此,决策树的思想就是判断哪个特征最重要,能最小的减少不确定性即信息熵,同时叫信息增益最大

信息增益

概念:特征A对训练数据集D的信息增益g(D,A),定义为集合D的信息熵H(D)与特征A给定条件下D的信息条件熵H(D|A)之差,即公式为:

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值