决策树的划分以后,就是剪枝处理了。
如何进行剪枝呢。主动去掉一些分支来降低过拟合的风险。
决策树剪枝的基本策略是:预剪枝和后剪枝,预剪枝是指在决策树生成过程中,对每个节点在划分前后进行估计,若当前节点的划分不能带来决策树泛化性能提升,则停止划分,并将当前结点标记为叶节点。后剪枝则是先在训练集生成一棵完整的决策树,然后自底向上地对非叶子节点进行考察,若将该结点对应的子树替换为叶节点能带来决策树泛化性能提升,则将该子树替换为叶结点。如何判断呢?采用留出法。即预留一部分数据用作验证集,以进行性能评估。我们将其随机划分为两部分。
预剪枝和后剪枝具体的做法。
一般情况下,后剪枝决策树的欠拟合风险很小,泛化性能往往优于预剪枝决策树,但后剪枝过程是在生成完全决策树之后进行的,并且要自底向上地对树中的所有非叶子节点进行逐一考察,因此开销比较大。
决策树处理时,连续值属性:先进行排序,然后基于划分点t可将D分为两个子集。当然,也可以选择中间值作为划分点。我们也一样可以利用离散值方式进行信息熵增益的计算。
缺失值处理:现实任务中常遇到不完整样本,关键看是否需要舍弃,如果需要保留,就一定要用均值或者0值或者1值进行填充,关键看应用场合,如果是回归,那么,就直接用0代替即可。当然,我们也可以把缺失值作为一类,这样,就可以继续使用之前的方法进行决策树的建立了。
与坐标轴平行的分类边界。
若用斜的边界划分。多变量决策树能实现斜划分,甚至更复杂的决策树。决策树中,非叶子结点不再是仅对某个属性,而是对属性的线性组合进行测试,试图建立一个合适的线性分类器。
支持向量机:
间隔一支持向量。找位于两类训练样本“正中间”的划分超平面。因为该划分超平面对训练样本局部扰动的“容忍”性最好。最小化||W||即可。
对偶问题:为了求解,二次规划问题,为了便开大量的计算开销和障碍,人们通过利用问题本身的特性,提出了很多的高效算法。
SMO基本思路是先固定两个参数,然后不断进行计算更新。
当线性不可分时,不一定就在原始样本空间内存在正确划分两类样本的超平面。
核函数的概念。
提出了软间隔的概念,不一定能完全线性分割,或者合适的核函数也很难使训练集在特征空间中线性可分,也很难断定这个貌似线性可分的结果不是由于过拟合所造成的。
所有样本都必须正确划分,称为硬间隔,而软间隔则是允许某些样本不满足约束条件。当然,应该尽可能的少。