支持向量机(SVM)回顾与扩展

最新推荐文章于 2022-04-24 16:34:17 发布

Doooer

最新推荐文章于 2022-04-24 16:34:17 发布

阅读量337

点赞数

分类专栏：机器学习算法总结

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/YQMind/article/details/84145243

版权

机器学习算法总结专栏收录该内容

39 篇文章 1 订阅

订阅专栏

前面的博客中对SVM进行了细腻的理论推导。这里，笔者想可以更进一步思考。

重温hard-margin SVM的推导

在SVM中，样本标签是{1,-1}，而不是经常接触的{0,1}，这样设计是为了便于公式的推导。
$\sum_{i=1}^m \alpha_iy_ix_i$ ，其中m是样本数。
在这里插入图片描述

Kernel Trick

将样本x映射到新的空间 $\phi(x)$ ，我们在新的空间里进行hard margin svm。推导过程不变，只需将图片里的x换为 $\phi(x)$ 即可。
$\sum_{i=1}^m \alpha_iy_i\phi(x_i)^T\phi(x) + b$
核函数就是
$k(x_i,x) = \phi(x_i)^T\phi(x)$
则
$\sum_{i=1}^m \alpha_iy_ik(x_i,x) + b$

Kernal trick不局限于SVM
any L2-regularized linear model can be kernelized!!!
并且最优 $\sum_{i=1}^m \beta_ix_i$
首先，我们需要回忆一下soft margin SVM
在这里插入图片描述
本质上，soft-margin SVM是带有L2正则化的hinge loss(合页损失）
通过KKT条件，可知soft-margin svm采用了hinge loss，仍然保持了解的稀疏性

SVR
带有L2正则化的 $\epsilon$ 不敏感损失，同样解具有稀疏性。

在实际使用中，soft-margin SVM相比hard margin SVM使用的更多。

Kernel Logistic Regression
把 $\sum_{i=1}^m \beta_ix_i$ 带入损失函数中，转为求解 $\beta$ 的问题
在这里插入图片描述
注意：不同于SVM, kernel logistic regression的解并不稀疏，因此预测开销很大

Kernel ridge regression:
把 $\sum_{i=1}^m \beta_ix_i$ 带入损失函数中，转为求解 $\beta$ 的问题
同样是解并不稀疏，预测开销很大

Support Vector Regression(SVR):
解稀疏

SVM为什么转换为对偶问题？

原始问题是在求解 $w$ 和 $b$ ，所以对于低维数据而言，直接求解原始问题即可，不需要转换为对偶问题。
当数据维度很高而样本数量有限的时候，转换为对偶问题，因为对偶问题和样本数目有关，和数据维度无关。但实际上，计算内积的时候，和维度还是有关系的。
转换为对偶问题的另一个优势是：方便引入核函数

李航老师的《统计机器学习》里列出的优点是：

对偶问题往往更容易求解
自然引入核函数，进而推广到非线性分类问题

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
支持向量机(SVM)回顾与扩展

any L2-regularized linear model can be kernelized!!!
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。