决策树
决策树是机器学习中常用到的一种分类与回归方法,由节点和有向边组成,目的是通过每次分类将整个特征空间进行划分,这样就可以得到不同的分类样本。
决策树算法中涉及到了特征的选择,决策树的生成和剪枝。不同的决策树学习算法生成过程是相同的。决策树的剪枝就是为了防止过拟合。
例如ID3算法是在各个节点上选择信息增益最大的特征进行分裂并构建决策树,当然这样的问题是会选择取值较多的特征。
例如CART可以用来分类和回归。当它用作回归树时,则利用平方误差最小化作为选择特征的准则,当它用作分类树时,则利用基尼指数最小化原则选择特征。
随机森林
随机森林也是基于决策树的算法,只不过是利用集成的思想来提升单颗决策树的分类性能。主要特点是由于随机选择样本和特征,所以不容易陷入过拟合。
随机森林算法的主要步骤是:
从样本集中用Bootstrap随机选取n个样本,并从所有属性中随机选取K个属性,选择最佳分割属性作为节点建立分类器(CART,SVM等)
重复以上m次,即建立了m个分类器,并通过投票表决结果,决定数据属于哪一类。
GBDT
梯度提升决策树GBDT也是一种基于集成思想的决策树模型。
算法简述是每次迭代生成一颗新的决策树,计算损失函数在每个训练样本点的一阶导数gi和二阶导数hi ,然后通过