机器学习知识点梳理1--SVM篇

1.SVM的优缺点

优点:

  1. 理论完善,逻辑优美。

  2. SVM 的最终决策函数只由少数的支持向量所确定,计算的复杂性取决于支持向量的数目,而不是样本空间的维数,这在某种意义上避免了“维数灾难”。

  3. SVM 对异常值不敏感

  4. 少数支持向量决定了最终结果,这不但可以帮助我们抓住关键样本、“剔除”大量冗余样本

  5. SVM 目标是求解最大间隔超平面,算法分类具有较好的“鲁棒”性。

  6. SVM可以利用核函数解决逻辑回归解决不了的高维分类问题。

缺点:

  1. SVM算法对大规模训练样本难以实施

    由于SVM是借助二次规划来求解支持向量,而求解二次规划将涉及m阶矩阵的计算(m为样本的个数),当m数目很大时该矩阵的存储和计算将耗费大量的机器内存和运算时间。

  2. SVM解决多分类问题存在困难

    经典的支持向量机算法只给出了二类分类的算法,而在数据挖掘的实际应用中,一般要解决多类的分类问题。可以通过多个二类支持向量机的组合来解决。主要有一对多组合模式、一对一组合模式和SVM决策树;再就是通过构造多个分类器的组合来解决。主要原理是克服SVM固有的缺点,结合其他算法的优势,解决多类问题的分类精度。如:与粗集理论结合,形成一种优势互补的多类问题的组合分类器。

2.手推SVM

3.LR和SVM联系与区别

LR与SVM的相同点

  1. 都是有监督的分类算法;

  2. 如果不考虑核函数,LR和SVM都是线性分类算法。

    它们的分类决策面都是线性的。

  3. LRSVM都是判别式模型

LR与SVM的不同点

  1. 本质上是loss函数不同,或者说分类的原理不同。

  2. SVM是结构风险最小化,LR则是经验风险最小化。

  3. SVM只考虑分界面附近的少数点,而LR则考虑所有点。

  4. 在解决非线性问题时,SVM可采用核函数的机制,而LR通常不采用核函数的方法。

  5. SVM计算复杂,但效果比LR好,适合小数据集;LR计算简单,适合大数据集,可以在线训练。

4.SVM原理

SVM目标是找到分类的最大间隔,为了更好的求解,针对SVM基本型使用拉格朗日方法找到其对偶问题,从而找到解。SVM只和支持向量有关,所以SVM异常值不敏感,适合小数据集

对于不易分类的情况,可以采用软间隔。高维问题甚至可以采用核函数方法来更好的分类。

5.为什么要将求解SVM的原始问题转化为其对偶问题

一是对偶问题往往更易求解,当我们寻找约束存在时的最优点的时候,约束的存在虽然减小了需要搜寻的范围,但是却使问题变得更加复杂。为了使问题变得易于处理,我们的方法是把目标函数约束全部融入一个新的函数,即拉格朗日函数,再通过这个函数来寻找最优点。二是可以自然引入核函数,进而推广到非线性分类问题。

6.为什么SVM对缺失数据敏感

这里说的缺失数据是指缺失某些特征数据,向量数据不完整SVM 没有处理缺失值的策略。而 SVM 希望样本在特征空间中线性可分,所以特征空间的好坏对SVM的性能很重要。缺失特征数据将影响训练结果的好坏。

7.SVM怎么防止过拟合

  1. 引入松弛变量

  2. 正则化

个人觉得讲的还不错的一篇关于SVMblog

转载链接机器学习四 SVM - Vpegasus - 博客园 (cnblogs.com)

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Lyttonkeepgoing

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值