格式驾驭不了,图片大小不会改,可以直接看我的有道笔记:http://note.youdao.com/noteshare?id=e11f1f0f08b9012b0221c2b94c9b438e
熵:信息熵是度量样本集合纯度最常用的一种指标
- 熵:衡量不确定性的度量。确定的,不随机的,熵最小。随机事件不偏向任何一方,熵达到最大。(取第i种情况概率为p(x),ln 为log2)
- 联合熵:(X,Y)在一起时的不确定性度量。
- 条件熵:X确定时,Y不确定性度量。在X发生是前提,Y发生新带来的熵。
- 交叉熵:衡量p与q的相似性。
- KL散度(相对熵):p与q不相似的度量。
常用的树搭建方法:当选择用样本的某一个属性a来划分样本集合时,就可以得出用属性a对样本D进行划分所带来的信息。根据信息选择最适合的划分点。
- ID3:(数据划分标准)信息增益.信息增益越大,纯度越好。
按照某个特征分割前后熵的减少程度。
特点:(1)容易造成过度拟合。(2) 使用标称型数据,但是很难处理连续型数据。
- C4.5:信息增益率。(越大,纯度越高)。
用信息增益会出现优先选择具有较多的特征,毕竟分得越细的属性确定性越高。所以提出了信息增益率的概念,让含较多的属性特征的作用降低。无论是ID3还是C4.5最好在小数据集上使用,决策树分类一般只试用于小数据。当属性取值很多时最好选择C4.5算法,ID3得出的效果会非常差。
- CART:Gini指数(Gini越小表示样本纯度越高)。全称为Classification and Regression Tree。
可以应用于分类和回归。只能用于切分二叉树而且和ID3\C4.5树不同,CART树不会再每一个步骤删除所用特征。
防止过拟合方法:剪枝
- 剪枝分为前剪枝和后剪枝,前剪枝本质就是早停止,后剪枝通常是通过衡量剪枝后损失函数变化来决定是否剪枝。后剪枝有:错误率降低剪枝、悲观剪枝、代价复杂度剪枝
- 前剪枝几种停止条件:①节点中样本为同一类②特征不足返回多类③如果某个分支没有值则返回父节点的多类④样本个数小于阈值返回多类。