台大机器学习笔记——SVR 支持向量回归

支持向量回归,个人微信公众号:计算机金融阅读,欢迎大家关注。(看不懂的点前面的文章都有讲)。
1.再讲支持向量回归之前,先推导如何将ridge regression加核。什么是ridge regression,简单说就是线性回归加上regularized项,也就是下图中的第一个式子:
这里写图片描述
2.如何给这个式子加核,跟之前SVM里面加核一样,最好的W参数,可以表示为Z的线性组合,证明过程如下,首先令最好的W写成与W平行和垂直的项,平行的可以由Z表现出来,剩下的一项则垂直于Z。那么现在如果W能被Z的线性组合表示出来,那么w垂直肯定为0。反证法:如果不是这样,就是w垂直不为0,那么w*和w平行在err上的效果一样,因为w垂直乘Z为0;那么此时再看minimize中的第一项,将第一项按w*=w垂直+w平行展开后,且w垂直不为0,可以发现,w平行的内积是小于w*内积的,那么此时跟w*为最佳解矛盾,所以w垂直必须为0!那么也就是说最好的w可以由Z线性组合!
这里写图片描述
3.在linear model里面,其中err的式子为最小平方误差即:
这里写图片描述
4.此时可以通过w能写成z的线性组合这一公式,将原先的ridge regression的问题进行化简,将所有的w都替换为beta和z的式子,即为:
这里写图片描述
那么现在我们跟之前讲的带核的SVM问题一样,将式中所有Z的内积写成了核函数的形式。
5.继续化简为,其实就是向量化,将求和的符号包含于矩阵相乘中:
这里写图片描述
6.要minimize这个式子,我们可以先算对于beta什么时候梯度会是0,我们就对每个beta求偏导:
这里写图片描述
那么我们可以得出beta的解,且其中式子的逆矩阵一定存在,因为K一定是半正定的,因为使用合法的kernel,就一定是半正定举证,再加上一个斜对角线有数的肯定是可逆的。
7.现在比较一下linear regression和加核的linear regression:
这里写图片描述
不加核中的x为d*d,而加核的K为N*N。左边需要花的时间都跟d有关,右边都是跟样本数量N有关,那么当N很大的时候,使用kernel效率就不一定高。
8.此时加了核的linear regression叫做LSSVM,那么我们用相同的样本来比较一下LSSVM和之前讲的soft-margin SVM有何区别,通过下图可以看出,得出的解并没有很大的区别,但是可以发现,soft-margin中的support vector明显少于LSSVM,也就是说在soft-margin中的alpha很多都是0,而LSSVM中的beta都不为0。这将会导致在将来最预测的时候beta会多花很多的时间。
这里写图片描述
9.那么我们现在就想是否能在regression中也能做出想之前soft-margin一样让解出来的beta也比较sparse,就是说让许多beta为0。我们就考虑一个tube regression,也就是说如果样本点里分类线的距离小于某一个阈值ε,那么我们就不计较它的误差,只有当它大于阈值的时候,才将大出的那部分算入误差err中,那么合起来的error measure就可以写成max后面那一项:
这里写图片描述
10.现在的问题就是minimize下面这个式子,但是其中有max这一项,会存在有一些点不能微分,在之前SVM中,也会碰到某先点不能微分的情况,但是可以通过转换成QP,二次规划的式子。现在我们就刻意模仿之前的SVM解法,转化为QP问题:
这里写图片描述
11.那么此时才真正的引出了支持向量回归的原始问题,为了跟SVM的写法相似,将10中的式子前的参数做了小小的改动,先就是如何将max拆开,然后转化为真正的二次规划的问题,我们将样本点与分隔线之间的误差如果在阈值之外,那么我们就将这个误差加到惩罚项中,但目前依然不是二次规划的问题,因为st中含有绝对值,那么将这个st条件拆开。此时就引出,误差上和误差下。那么此时就可以转化为一个二次规划的QP问题了:
这里写图片描述
12.在SVM中,为了二次规划中摆脱d可能很大的问题,就引入了SVM对偶式子,就是引入拉格朗日公式,将原始的SVM转化为对偶问题:
这里写图片描述
因为原始的SVM问题和SVR问题很相似,所以他们的对偶问题也很相似,并且可以加核。之所以要这么做,就是要确保求出的beta跟SVM中一样,要很稀疏,也就是说beta有很多都等于0,只含有少量的支持向量。
13.那么什么时候beta为0呢。如果样本点和y的差值小于阈值,那么误差项上和误差项下都等于0。因为样本点和y的差严格小于阈值,那么可以得出两个alpha都等于0,那么beta就等于0。所以落在tube外面的那些点才会是support vector。那么此时的beta也会是sparse的,且也可以套用dual,kernal等方法。
这里写图片描述

  • 3
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
支持向量回归(Support Vector Regression, SVR)是一种基于支持向量机(Support Vector Machine, SVM)的机器学习算法,用于解决回归问题。SVR与SVM在基本思想上相似,都是通过求解一个最优超平面来进行分类或回归。 SVR的目标是寻找一个超平面,使得所有样本点与该超平面之间的距离尽可能小,并且误差小于一个给定的阈值。与SVM中通过最大化间隔来确定超平面不同,SVR的目标是尽量将所有样本点落在间隔带内。 在SVR中,使用了核函数来处理非线性问题,将低维输入空间映射到高维特征空间中,通过在高维空间中构建超平面来解决线性不可分的问题。常用的核函数有线性核、多项式核和径向基核等。通过选择合适的核函数和核函数参数,可以提高回归算法的性能。 SVR的优点包括: 1. 模型具有良好的泛化能力,能够处理小样本、非线性和高维数据。 2. 可以通过调整软间隔带的宽度来控制模型的复杂度和容忍度。 3. 具有较高的训练速度和预测速度。 然而,SVR也存在一些缺点: 1. 对参数的选择敏感,需要通过交叉验证等方法进行调优。 2. 在处理大规模数据时,计算复杂度较高。 3. 对异常值比较敏感,可能会影响模型的性能。 总而言之,SVR是一种强大的回归算法,可以应用于各种回归问题。通过合理选择核函数和参数,可以提高模型对数据的拟合效果。然而,在使用SVR时需要注意参数调优和异常值处理,以提高模型的性能和稳定性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值