决策树 随机森林

文章介绍了决策树的基本原理,特别是ID3算法,该算法基于信息增益来选择最优属性,构建决策树。信息增益是衡量属性选择后不确定性减少的程度。此外,文章还提及了随机森林,这是一种通过多棵决策树并结合它们的结果来做出预测的集成学习方法。
摘要由CSDN通过智能技术生成

对于一棵决策树,如何使用是非常简单的,在此不过多赘述

其实大多数模型都是一个思路:
通过数据进行训练,构建模型,之后对于一个新数据,只需代入模型即可

问题是如何构建模型,这才是一个算法的关键

构建方法有很多种,在此我们仅介绍ID3(考试只考这个)

ID3

总的来说,ID3就是一种按照不同属性的信息增益来递归构造决策树的方法

将所有属性的信息增益都计算一边之后,取最大的属性为根节点,再对每一个子树进行同样步骤,直到所有叶子节点都只有一个值,或所有属性都使用过

信息增益

G a i n ( S , A ) = E n t ( S ) − ∑ j = 1 m ∣ S j ∣ ∣ S ∣ E n t ( S j ) Gain(S,A)=Ent(S)-\sum_{j=1}^m \frac{|S_j|}{|S|}Ent(S_j) Gain(S,A)=Ent(S)j=1mSSjEnt(Sj)

信息熵 − 条件熵 信息熵-条件熵 信息熵条件熵

信息增益表示得知属性 a 的信息而使得样本集合不确定度减少的程度

A为属性A,j 为属性A的取值,m为属性A的取值数量, S j S_j Sj为属性A取 j 的样本集合
|S|代表样本数量


信息熵

信息熵是度量样本集合不确定度最常用的指标:

E n t ( S ) = − ∑ p i L o g 2 ( p i ) Ent(S)=-\sum p_i Log_{2} (p_i) Ent(S)=piLog2(pi)

S表示一个集合,含有N个元素,n个离散取值种类, p i p_i pi表示对于其中第 i 种取值,其概率的值(比例)


条件熵

∑ j = 1 m ∣ S j ∣ ∣ S ∣ E n t ( S j ) \sum_{j=1}^m \frac{|S_j|}{|S|}Ent(S_j) j=1mSSjEnt(Sj)

随机森立

概述

就是n棵决策树,通过这些决策树的结果投票,得出最终结果

构造随机森林中的树:
对于含有N个样本的样本集S,采取bootstrap的方法,取得m个新的样本集,
之后再从K属性中抽取k个属性,以这k个属性为属性集合构造决策树,(k<<K)
生成m课数,形成随机森林

最终决策时要以投票的方式选取最终结果

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值