机器学习-周志华-支持向量机的逻辑详解

这是博主的第一篇博客,非常激动兴奋,有误之处尽请谅解。我在读本章节时遇到很多陌生的专业词和概念,相信有些人与我一样初读时会盲目往下读而不进行深度逻辑理解。逻辑理解是指把整个章节的逻辑性串联起来,为什么突然讲这个,为什么突然引用这个概念,又为什么用这个方法。在工作面试中,好的面试官不会问细节问题,不会问公式怎么写怎么证明,而是问概念定义和这些问题的解决方法,只需要说出方法名字就可以过关,如果想表现好点就可以讲讲你这个方法的见解会更好。

好了,我们进入主题(提供有周志华书的人)

首先给以下定义

损失函数的作用:衡量模型预测的好坏,损失函数越小,模型越好。

拉格朗日乘子法作用:求最优解,由于拉格朗日函数是具有凸函数(目前没见过非凸函数的拉格朗日),凸函数的性质之一是极值点就是最值点,所以只需要用一阶导就可以求出最优解。

周志华老师的书p130页讲到软间隔(定义:允许少部分样本在该模型上出错),现在我要这个模型变好点(求最大化间隔),出错率低点,我就往这个模型加上损失函数得到

其中是损失函数,

但该损失函数不是凸函数,所以书中为什么讲到替代损失函数,用近似函数又具有凸函数性质的函数替代该损失函数(有三种,周老师的书选第一种hinge损失函数l(z)=max(0,1-z)。)

所以式子变成

好了这下两个都是凸函数,这就是为什么引用拉格朗日的前提条件,本书没有介绍凸函数我认为是有所失,因为凸加凸组成双凸式子才可以引用拉格朗日,而不用替代损失函数前是凸加非凸,不可以用拉格朗日算法。然后用拉格朗日求得最优解w的等式,再用SMO法把两变量ai与aj化成单变量ai形式,再用核函数(个人认为叫做内积函数比较好理解)求解得到ai,最后得到w,其中分解平面wx+b中的b可以用平均值,求b详见p125页。

以上是思路分析或者叫逻辑的详解,我们看书自学不能盲目的学,不能只记住怎么算,还要自己问问为什么来的。接下来第二遍我会介绍我从卷积神经网络的池化降维联想到图片像素压缩,本人,没学过机器视觉和图像之类的知识,只是灵感来源数学。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值