机器学习_决策树

【0】决策树的几何意义:在几何空间内对空间进行划分,划分后每个子空间标类(即叶子节点的决策)


【1】顾名思义,决策树是基于树的结构进行分类的,很符合日常。比如判断这个瓜好不好---->这个瓜的颜色--->这个瓜的敲响声,一层一层决策

【2】决策树的目的:由已知样本构建一个树,这样在新的样本输入后,由这颗产生分类信息。

【3】树的构造需要用到递归。

【4】递归如何停止呢

         【4.1】最优的情况是划分的子集只包含一类样本,那么这个子集的决策就是这个类的决策。递归停止

         【4.2】信息熵变化不太(纯度提升不大),停止划分。

         【4.3】当某一节点含样本数足够小时停止划分。

【5】首先生成根节点,其次选择最优划分属性,由属性的属性值划分子树。

【6】最优划分属性的选择:希望选择某属性后,样本分割后样本纯度越来高

信息增益:

1.信息增益之所以能用来衡量纯度是因为一个事件可能性越多,所带来的信息量越大。可能性越少,纯度越高,信息量也越少,信息增益就越大

2.公式西瓜书--p75 4.2   

        这里的权重本质来说就是概率嘛。

3.因为如果属性可能取值的数目较多,那么就比较存,但是可能不具有泛化能力,为了解决这个问题,引入增益率

增益率:

1.西瓜p78 4.3  在原有信息增益的基础上  除以  分类事件所带来的信息量。一定程度上起了标准化的作用

2.缺点对数值较少的属性有所偏好

启发式选取:

p79 顶部  先选信息增益高于平均的(目的:排掉属性可能数值较少的属性),再选增益率较高的。

【7】问题:决策树的弱点在于它的高度差异性。训练数据集合细小的变化将导致得到不同的决策树。

【8】决策树的关键:在于决策树的规模(指深度/广度等)。规模要足够大但不能太大,否则会学到特殊细节显示出较差泛化能力。                                                                         最通用的做法是首先将树生长到足够规模,然后利用剪枝策略修剪树节点。

【9】贴一张简单的二叉算法。



参数:https://www.cnblogs.com/chenyaling/p/7236435.html

          http://blog.csdn.net/li980828298/article/details/51172744

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值