统计学习方法第五章笔记——决策树

  本章主要介绍了三种决策树:ID3,C4.5,CART。并介绍了它们各自的剪枝方法。

5.1 决策树模型与学习

  决策树模型是一个树模型,其内部节点代表一个特征,内部节点的子节点表示按这个特征将一条记录划分到不同子集中去。其叶子节点表示了一个类,即分类或回归的结果。样本输入决策树后按照根节点给出的划分方式划分到子节点中,再按子节点给出的划分方式划分到子节点的子节点中,直到到达叶子节点,并将叶子节点的分数作为输出。
  这一方式可以看做if-then规则的集合,也可以看做是一种条件表示概率,即在给定节点特征的条件下,样本分类的条件概率。
  决策树的目的同样是损失函数最小,但需要遍历所有树结构以及所有叶子的分裂方式,该问题是NP完全问题,因此大多采用贪心的方式来学习。

5.2 特征选择

5.2.1 ID3信息增益
  信息增益的准则来源于信息熵,信息熵是一种度量,来衡量一个随机变量的不确定程度,或者也可以说惊喜程度。如果一个随机变量是完全确定的,我们就知道对这个随机变量每一次随机的结果,即毫无惊喜可言。如果一个随机变量在每种取值上概率均等,我们永远不知道下一次这个变量会取什么值,即每一次都是惊喜。同时对变量的单个取值而言,其概率越高,代表能带给我们的惊喜越少,即熵应该越低。熵的形式化的定义为:

H(X)=ni=1pilogpi

其中, pi 是随机变量取值为i的概率。之所以熵定义成这样是为了满足熵的可加性。而条件熵即联合分布中,给定了一个变量后另一个变量的不确定程度。其形式化定义为:
H(X|Y)=ni=1piH(X|Y=yi)

因此定义信息增益为:
gain(X,Y)=H(X)H(X|Y)

  每次决定分裂的时候,选择信息增益最大的特征作为分裂特征,将其每个特征分裂为一个新节点。
5.2.2 C4.5信息增益比
  从信息增益上可以看出,如果特征的取值很多,会造成其信息增益很大,因此ID3会倾向选择取值比较多的特征进行分裂。为了避免这一点,C4.5采用了信息增益比,通过除以特征的熵来平衡这一趋势。

5.3 分裂算法

  即贪心地从根节点开始选择特征进行分裂,分裂后到每个子节点继续分裂。需要注意的是,如果当信息增益或者信息增益比小于某一阈值,则停止分裂。在树中同一条路径上不应使用同一特征两次。

5.4 决策树的剪枝

  决策树的剪枝是为了控制模型复杂度。在这里首先定义决策树的损失函数,然后根据损失函数来判断是否剪枝。决策树的损失函数为:

Cα(T)=|T|t=1NtHt(T)+α|T|

其中, T 是决策树的叶子节点个数,Ht(T)为节点 t 上的熵。可以看到,该损失函数由决策树的训练误差以及树的复杂度决定。
剪枝方法是,递归地向上回缩树的节点,如果发现回缩后损失函数更低,则剪枝。

5.5 CART算法

  CART也是一种决策树算法,其特点是每次分裂只分裂出两个子节点。该方法支持分类以及回归的目标
  在分类上,CART选用了基尼指数作为分裂标准,基尼指数越高,代表节点内的不纯度越高,其使用方法和熵相同。但由于CART只分裂两个节点,因此在特征有多个取值时,将一个取值的样本放入一个节点,将其他取值的样本放入另一个节点。
  在回归上,CART遍历每个特征的每个可能划分点,并用平方误差来表示训练误差,形式化而言:

minj,s[minc1xiR1(j,s)(yic1)2+minc2xiR2(j,s)(yic2)2]

其中, j 是变量,s是划分取值, R1(j,s) R2(j,s) 是被 s 划分的两个区域,yi是样本 xi 对应的标签。该式的意义即为,找出最佳的特征和划分方式,使得被划分到两个区域的样本的方差最小。
  CART的树生成算法和C4.5相同,只是分裂指标不同。
  CART的剪枝更像对正则化参数的交叉验证。对于一个单节点树t而言,其损失函数是
Cα(t)=C(t)+α

其中, C(t) 是损失函数, α 是正则项。将其分裂后得到的子树T的损失函数为:
Cα(T)=C(T)+α|T|

  可以发现,对于固定的正则项 α ,可以直接判断单节点树好,还是将该单节点树继续分裂好。因此,对于不同的α取值,都可以找到一颗剪枝后的最佳决策树。将这些不同α取值下的最佳决策树做交叉验证,取其最优者即CART的剪枝策略。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值