决策树与随机森林

本文深入探讨了决策树模型,包括信息增益与信息增益比在特征选择中的作用,ID3和C4.5算法的差异。还详细阐述了决策树的生成和剪枝过程,接着讲解了CART算法,特别是分类树的基尼指数最小化。最后,介绍了随机森林的概念,包括训练数据的随机抽样和节点拆分时的随机特征子集,以及随机森林的构造过程。
摘要由CSDN通过智能技术生成

1 决策树模型

       分类决策树模型是一种描述对实例进行分类的树形结构,决策树由节点和有向边组成。节点有两种类型:内部节点和叶节点,内部节点表示一个特征或属性,叶节点表示一个类。在这里插入图片描述

2 特征选择

       特征的选择在于选取对训练数据具有分类能力的特征,这样可以提高决策树学习的效率。

2.1 信息增益

       在信息论与概率统计中,熵是表示随机变量不确定性的度量。熵越大随机不确定性也就越大。设 X X X是一个取有限个值的离散型随机变量,则随机变量 X X X的熵定义为:
H ( p ) = − ∑ i = 1 n p i l o g p i H(p)=-\sum^n_{i=1}p_ilogp_i H(p)=i=1npilogpi
       条件熵 H ( Y ∣ X ) H(Y|X) H(YX)表示在已知随机变量 X X X的情况下,随机变量 Y Y Y的不确定性,定义如下:
H ( Y ∣ X ) = ∑ i = 1 n p i H ( Y ∣ X = x i ) H(Y|X)=\sum^n_{i=1}p_iH(Y|X=x_i) H(YX)=i=1npiH(YX=xi)
       特征A对训练数据 D D D的信息增益 g ( D , A ) g(D,A) g(D,A),定义为:
g ( D , A ) = H ( D ) − H ( D ∣ A ) g(D,A)=H(D)-H(D|A) g(D,A)=H(D)H(DA)
       显然,对于数据集 D D D而言,信息增益依赖于特征,不同的特征往往具有不同的信息增益。信息增益大的特征具有更强的分类能力。根据信息增益准则的特征选择方法是:对于训练集或者其子集,计算每个特征的信息增益,然后选择信息增益最大的特征,计算流程如下:

  1. j计算数据集D的熵:
    H ( D ) = − ∑ k = 1 K ∣ C k ∣ D l o g ∣ C k ∣ D H(D)=-\sum^K_{k=1}\frac{|C_k|}{D}log\frac{|C_k|}{D} H(D)=k=1KDCklogDCk
  2. 计算条件熵:
    H ( D ∣ A ) = ∑ i = 1 n ∣ D i ∣ ∣ D ∣ H ( D i ) = − ∑ i = 1 n ∣ D i ∣ ∣ D ∣ ∑ k = 1 K ∣ D i k ∣ ∣ D i ∣ l o g ∣ D i k ∣ ∣ D i ∣ H(D|A)=\sum^n_{i=1}\frac{|D_i|}{|D|}H(D_i)=-\sum^n_{i=1}\frac{|D_i|}{|D|}\sum^K_{k=1}\frac{|D_{ik}|}{|D_i|}log\frac{|D_{ik}|}{|D_i|} H(DA)=i=1nDDiH(Di)=i=1nDDik=1
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值