读《机器学习》笔记(二)



决策树的划分以后,就是剪枝处理了。

如何进行剪枝呢。主动去掉一些分支来降低过拟合的风险。

决策树剪枝的基本策略是:预剪枝和后剪枝,预剪枝是指在决策树生成过程中,对每个节点在划分前后进行估计,若当前节点的划分不能带来决策树泛化性能提升,则停止划分,并将当前结点标记为叶节点。后剪枝则是先在训练集生成一棵完整的决策树,然后自底向上地对非叶子节点进行考察,若将该结点对应的子树替换为叶节点能带来决策树泛化性能提升,则将该子树替换为叶结点。如何判断呢?采用留出法。即预留一部分数据用作验证集,以进行性能评估。我们将其随机划分为两部分。

预剪枝和后剪枝具体的做法。

一般情况下,后剪枝决策树的欠拟合风险很小,泛化性能往往优于预剪枝决策树,但后剪枝过程是在生成完全决策树之后进行的,并且要自底向上地对树中的所有非叶子节点进行逐一考察,因此开销比较大。

决策树处理时,连续值属性:先进行排序,然后基于划分点t可将D分为两个子集。当然,也可以选择中间值作为划分点。我们也一样可以利用离散值方式进行信息熵增益的计算。

缺失值处理:现实任务中常遇到不完整样本,关键看是否需要舍弃,如果需要保留,就一定要用均值或者0值或者1值进行填充,关键看应用场合,如果是回归,那么,就直接用0代替即可。当然,我们也可以把缺失值作为一类,这样,就可以继续使用之前的方法进行决策树的建立了。

  1. 与坐标轴平行的分类边界。

  2. 若用斜的边界划分。多变量决策树能实现斜划分,甚至更复杂的决策树。决策树中,非叶子结点不再是仅对某个属性,而是对属性的线性组合进行测试,试图建立一个合适的线性分类器。

  3. 支持向量机:

    间隔一支持向量。找位于两类训练样本“正中间”的划分超平面。因为该划分超平面对训练样本局部扰动的“容忍”性最好。最小化||W||即可。

    对偶问题:为了求解,二次规划问题,为了便开大量的计算开销和障碍,人们通过利用问题本身的特性,提出了很多的高效算法。

             SMO基本思路是先固定两个参数,然后不断进行计算更新。

    当线性不可分时,不一定就在原始样本空间内存在正确划分两类样本的超平面。

             核函数的概念。

             提出了软间隔的概念,不一定能完全线性分割,或者合适的核函数也很难使训练集在特征空间中线性可分,也很难断定这个貌似线性可分的结果不是由于过拟合所造成的。

             所有样本都必须正确划分,称为硬间隔,而软间隔则是允许某些样本不满足约束条件。当然,应该尽可能的少。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值