一、决策树(类型、节点特征选择的算法原理、优缺点、随机森林算法产生的背景)
1、分类树和回归树
由目标变量是离散的还是连续的来决定的;目标变量是离散的,选择分类树;反之(目标变量是连续的,但自变量可以是分类的或数值的),选择回归树;
树的类型不同,节点分裂的算法和预测的算法也不一样;
分类树会使用基于信息熵或者gini指数的算法来划分节点,然后用每个节点的类别情况投票决定预测样本的分类;回归树会使用最大均方误差来划分节点,然后用每个节点中样本的均值作为测试样本的预测值;
2、决策树的算法:ID3、C4.5和CART
CART(Classify and regresion tree)算法既可以生成分类树,也可以生成回归树,但它生成的是二叉树;既可以处理连续变量也可以处理离散变量;对于分类树使用gini不纯度来决定划分节点,对于回归树使用最小误差准则来划分节点;CART的树特点是可以不断生长,需要进行剪枝;
思想:递归地将输入空间分割成矩形
优点:可以进行变量选择,可以克服missing data,可以处理混合预测
缺点:不稳定
ID3是用信息增益来决定划分节点,只能处理离散变量;ID3会对特征取值较多的特征有所偏好(比如ID号),但这是没有意义的;
C4.5是用信息增益率来决定划分节点,可以处理连续值(用二分法进行离散化);可以处理缺省值;而且C4.5克服了ID3一个重要缺点,它对于取值较多的特征有一个惩罚抑制;或者说它对取值较少的特征有所偏好;但它的算法性能较低;可以与ID3结合优势互补来进行一些效果和性能的优化;
3、决策树是如何选择分裂节点的?
MeanDecreaseAccuracy 和 MeanDecreaseGini
因为用“平均精度下降”衡量特征重要性时,是通过随机扰动每个变量(特征)值来看其整体最后的预测误差的,也就是说,除了被扰动的那个特征外,剩余的特征没有变化,用这种方法造成的最终结果的预测误差来衡量这个被扰动特征的重要性;
GINI指数是衡量节点