读《机器学习》笔记（二）

最新推荐文章于 2018-06-20 13:12:39 发布

AI专家

最新推荐文章于 2018-06-20 13:12:39 发布

阅读量1.2k

点赞数

分类专栏：机器学习修炼之路专家之道

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42039090/article/details/80738099

版权

机器学习同时被 3 个专栏收录

78 篇文章 15 订阅

订阅专栏

70 篇文章 1 订阅

订阅专栏

61 篇文章 2 订阅

订阅专栏

决策树的划分以后，就是剪枝处理了。

如何进行剪枝呢。主动去掉一些分支来降低过拟合的风险。

决策树剪枝的基本策略是：预剪枝和后剪枝，预剪枝是指在决策树生成过程中，对每个节点在划分前后进行估计，若当前节点的划分不能带来决策树泛化性能提升，则停止划分，并将当前结点标记为叶节点。后剪枝则是先在训练集生成一棵完整的决策树，然后自底向上地对非叶子节点进行考察，若将该结点对应的子树替换为叶节点能带来决策树泛化性能提升，则将该子树替换为叶结点。如何判断呢？采用留出法。即预留一部分数据用作验证集，以进行性能评估。我们将其随机划分为两部分。

预剪枝和后剪枝具体的做法。

一般情况下，后剪枝决策树的欠拟合风险很小，泛化性能往往优于预剪枝决策树，但后剪枝过程是在生成完全决策树之后进行的，并且要自底向上地对树中的所有非叶子节点进行逐一考察，因此开销比较大。

决策树处理时，连续值属性：先进行排序，然后基于划分点t可将D分为两个子集。当然，也可以选择中间值作为划分点。我们也一样可以利用离散值方式进行信息熵增益的计算。

缺失值处理：现实任务中常遇到不完整样本，关键看是否需要舍弃，如果需要保留，就一定要用均值或者0值或者1值进行填充，关键看应用场合，如果是回归，那么，就直接用0代替即可。当然，我们也可以把缺失值作为一类，这样，就可以继续使用之前的方法进行决策树的建立了。

与坐标轴平行的分类边界。
若用斜的边界划分。多变量决策树能实现斜划分，甚至更复杂的决策树。决策树中，非叶子结点不再是仅对某个属性，而是对属性的线性组合进行测试，试图建立一个合适的线性分类器。
支持向量机：
间隔一支持向量。找位于两类训练样本“正中间”的划分超平面。因为该划分超平面对训练样本局部扰动的“容忍”性最好。最小化||W||即可。
对偶问题：为了求解，二次规划问题，为了便开大量的计算开销和障碍，人们通过利用问题本身的特性，提出了很多的高效算法。
         SMO基本思路是先固定两个参数，然后不断进行计算更新。
当线性不可分时，不一定就在原始样本空间内存在正确划分两类样本的超平面。
         核函数的概念。
         提出了软间隔的概念，不一定能完全线性分割，或者合适的核函数也很难使训练集在特征空间中线性可分，也很难断定这个貌似线性可分的结果不是由于过拟合所造成的。
         所有样本都必须正确划分，称为硬间隔，而软间隔则是允许某些样本不满足约束条件。当然，应该尽可能的少。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。