【0】决策树的几何意义:在几何空间内对空间进行划分,划分后每个子空间标类(即叶子节点的决策)
【1】顾名思义,决策树是基于树的结构进行分类的,很符合日常。比如判断这个瓜好不好---->这个瓜的颜色--->这个瓜的敲响声,一层一层决策
【2】决策树的目的:由已知样本构建一个树,这样在新的样本输入后,由这颗产生分类信息。
【3】树的构造需要用到递归。
【4】递归如何停止呢?
【4.1】最优的情况是划分的子集只包含一类样本,那么这个子集的决策就是这个类的决策。递归停止
【4.2】信息熵变化不太(纯度提升不大),停止划分。
【4.3】当某一节点含样本数足够小时停止划分。
【5】首先生成根节点,其次选择最优划分属性,由属性的属性值划分子树。
【6】最优划分属性的选择:希望选择某属性后,样本分割后样本纯度越来高
信息增益:
1.信息增益之所以能用来衡量纯度是因为一个事件可能性越多,所带来的信息量越大。可能性越少,纯度越高,信息量也越少,信息增益就越大
2.公式西瓜书--p75 4.2
这里的权重本质来说就是概率嘛。
3.因为如果属性可能取值的数目较多,那么就比较存,但是可能不具有泛化能力,为了解决这个问题,引入增益率
增益率:
1.西瓜p78 4.3 在原有信息增益的基础上 除以 分类事件所带来的信息量。一定程度上起了标准化的作用
2.缺点对数值较少的属性有所偏好
启发式选取:
p79 顶部 先选信息增益高于平均的(目的:排掉属性可能数值较少的属性),再选增益率较高的。
【7】问题:决策树的弱点在于它的高度差异性。训练数据集合细小的变化将导致得到不同的决策树。
【8】决策树的关键:在于决策树的规模(指深度/广度等)。规模要足够大但不能太大,否则会学到特殊细节显示出较差泛化能力。 最通用的做法是首先将树生长到足够规模,然后利用剪枝策略修剪树节点。
【9】贴一张简单的二叉算法。
参数:https://www.cnblogs.com/chenyaling/p/7236435.html
http://blog.csdn.net/li980828298/article/details/51172744