机器学习笔记:Decision tree

格式驾驭不了,图片大小不会改,可以直接看我的有道笔记:http://note.youdao.com/noteshare?id=e11f1f0f08b9012b0221c2b94c9b438e

熵:信息熵是度量样本集合纯度最常用的一种指标

  • 熵:衡量不确定性的度量。确定的,不随机的,熵最小。随机事件不偏向任何一方,熵达到最大。(取第i种情况概率为p(x),ln 为log2)

  • 联合熵:(X,Y)在一起时的不确定性度量。

  • 条件熵:X确定时,Y不确定性度量。在X发生是前提,Y发生新带来的熵。

  • 交叉熵:衡量p与q的相似性。

  • KL散度(相对熵):p与q不相似的度量。

 

常用的树搭建方法:当选择用样本的某一个属性a来划分样本集合时,就可以得出用属性a对样本D进行划分所带来的信息。根据信息选择最适合的划分点。

  • ID3:(数据划分标准)信息增益.信息增益越大,纯度越好。

按照某个特征分割前后熵的减少程度。

特点:(1)容易造成过度拟合。(2) 使用标称型数据,但是很难处理连续型数据。

  • C4.5:信息增益率。(越大,纯度越高)。

用信息增益会出现优先选择具有较多的特征,毕竟分得越细的属性确定性越高。所以提出了信息增益率的概念,让含较多的属性特征的作用降低。无论是ID3还是C4.5最好在小数据集上使用,决策树分类一般只试用于小数据。当属性取值很多时最好选择C4.5算法,ID3得出的效果会非常差。

  • CART:Gini指数(Gini越小表示样本纯度越高)。全称为Classification and Regression Tree。

可以应用于分类和回归。只能用于切分二叉树而且和ID3\C4.5树不同,CART树不会再每一个步骤删除所用特征。

 

防止过拟合方法:剪枝

  • 剪枝分为前剪枝和后剪枝,前剪枝本质就是早停止,后剪枝通常是通过衡量剪枝后损失函数变化来决定是否剪枝。后剪枝有:错误率降低剪枝、悲观剪枝、代价复杂度剪枝
  • 前剪枝几种停止条件:①节点中样本为同一类②特征不足返回多类③如果某个分支没有值则返回父节点的多类④样本个数小于阈值返回多类。

 

 

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值