1.决策树
1)决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别;
2)决策树采用自顶向下的递归方法,基本思想是以信息熵为度量构造一颗熵值下降最快的树;
3)重点:在当前状态下,选择哪个属性;
2.信息论
1)熵
熵为信息的期望值,衡量数据的混乱程度,熵越大,混乱程度越高,也就是纯度越低;反之,熵越小,混乱程度越低,纯度越高;
信息定义:
其中,为选择该分类的概率;
熵公式:
2)条件熵
在特征X的选择下,数据集c获得熵为:
n为特征XX所出现所有种类的数量
3)信息增益
特征A对训练集D的信息增益g(D,A)
g(D,A)=H(D)-H(D|A)
其中,H(D)为划分之前的信息熵,H(D|A)为在特征A的选择下D获得熵(条件熵)
信息熵:
其中,K为该特征的所有取值可能,为该取值下分类的数据集,D为未划分时的数据集,求其所占的比例;
条件熵:
其中为在特征的第k中取值下,划分数据所获得数据集;
3.ID3
思想:从根节点开始,对节点计算所有可能特征的信息增益,选择信息增益最大的特征作为根特征,根据该特征的不同取值对数据进行分类建立子节点,递归建立子节点,直到所有特征的信息增益均很小为止;
1)衡量数据无序程度:熵(香农熵)、基尼不纯度(一个数据被错误分组的概率)
2)ID3选择特征的指标为,信息增益,每次选择信息增益最大的特征作为划分特征;
缺点:1)其考察每个特征对全局的贡献,是全局意义上的特征选择,没有办法对单个特征进行选择;
2)依赖于特征水平较多的特征,而属性取值最多的属性并不一定最优;(有可能存在特征取值特别少,但其内部分类根据属性不同特别明确,所以ID3不一定达到全局最优)
4.C4.5
思想:在选择特征时的指标为:信息增益率
5.CART
1)CART:分类回归树,可以用于分类和回归,是后续中以决策树集成的学习方法的基学习器;
2)ID3中每次使用过的属性在后续中不再使用,其处理方式影响其预测的准确率,所以CART中采用的二元切分法;
3)分类时选择属性指标:基尼指数
其中,表示在当前数据集中第k个特征所在数据集;
4)回归时属性选择
在每一次划分之前,对划分的数据计算其误差,如果误差小于当前最小误差,则选择该特征和该特征对应的值;
6.树的剪枝
1)预剪枝
通过提前停止树的构建而对树剪枝,一旦停止,节点就是树叶,该树叶持有子集元祖最频繁的类。
停止决策树生长最简单的方法有:
①定义一个高度,当决策树达到该高度时就停止决策树的生长;
②达到某个节点的实例具有相同的特征向量,即使这些实例不属于同一类,也可以停止决策树的生长。这个方法对于处理数据的数据冲突问题比较有效;
③定义一个阈值,当达到某个节点的实例个数小于阈值时就可以停止决策树的生长;
④定义一个阈值,通过计算每次扩张对系统性能的增益,并比较增益值与该阈值大小来决定是否停止决策树的生长;
2)后剪枝
后剪枝(postpruning):它首先构造完整的决策树,允许树过度拟合训练数据,然后对那些置信度不够的结点子树用叶子结点来代替,该叶子的类标号用该结点子树中最频繁的类标记。相比于先剪枝,这种方法更常用,正是因为在先剪枝方法中精确地估计何时停止树增长很困难。
决策树
最新推荐文章于 2024-10-15 14:59:56 发布