决策树就是树,然后根据条件开始分叉,主要是根据信息方面的三种方法进行分叉,
- 首先是信息熵的概念。Ent(D)=-pk log2 pk 的累加,一共分k类,(找不到累加符号)
- 信息熵是接下来三种分叉方法的基础,代表样本中纯度,纯度越高,熵越低,
- 决策树的分叉一般没有明确说是二叉树,可以是多叉树,但是在算法实现中很可能会用二叉树,因为写起来方便(个人猜测)
1.信息增益
信息增益就是分叉前的熵减去分叉后每个枝杈上的熵的和,就是信息增益,(ID3决策树是根据这个方法来进行分类的)
然后就根据根据哪条属性的信息增益越大就采用根据哪条进行分叉,
2增益率
增益率等于信息增益除以一个数(分开每个叉中元素数目Dv,总数为D,Dv/D log2 Dv/D 然后累加起来)
为什么采用增益率呢,肯定是信息增益有一定的不足,就是增益率偏向于可取值数目少的属性有所偏好(C4.5决策树就是采用这个方法),从候选划分属性中找出信息增益高于平均水平的属性,在丛中选择增益率最高的
3.基尼指数。
(CART决策树是采用基尼系数的)
直观来说是反应数据集中随机选取两个样本,类别标记不一致的概率。
基尼值=1-所有类别的概率的各自平方然后求和
基尼指数=每个分叉的样本数目除以总数目*分叉样本的基尼值 然后累加起来,最后选择基尼指数最小的作为最优划分属性。
决策树存在剪枝操作用来处理过拟合的问题。预剪枝是从上向下,后剪枝是从下向上,不过都是从验证集精度是否提升来判断是否剪枝。
大体就是这样,个人菜鸡。有很多错误估计