机器学习 - 损失函数和支持向量机SVM

最新推荐文章于 2024-06-13 06:30:00 发布

转行的炼丹师

最新推荐文章于 2024-06-13 06:30:00 发布

阅读量853

点赞数 1

分类专栏：机器学习文章标签：机器学习支持向量机

本文链接：https://blog.csdn.net/jose_M/article/details/105896260

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

本文主要对机器学习的损失函数和SVM的原理以及相应的数学知识进行介绍

回归

一般来说，回归问题的 loss function 取决于 residual $y-\hat y$ ，说明我们比较关心预测值 $\hat y$ 与实际值 $y$ 之间的绝对差距。但是如果我们比较关心预测值 $\hat y$ 是实际值 $y$ 的几倍的时候，可以将 $y$ 做 log transform，然后就可以回到我们熟悉的残差版本。

常见的 loss function 有

$l_2 \ loss = (y-\hat y)^2$
$l_1 \ loss = |y - \hat y|$
$\ loss = \left\{ \begin{aligned} quadratic, \ |y=\hat y|\leq \delta\\ linear,\ |y=\hat y| > \delta \\ \end{aligned} \right.$

$\ loss$ 对noise不够robust， $\ loss$ 在 $x = 0$ 不可导，所以 $\ loss$ 对两者进行了综合。

分类

二分类

$\in \{-1,1\}$

$\ loss = 1(y_if(x_i)\leq 0)$
$hinge \ loss = max\{1-y_if(x_i), 0\}$
$logistic \ loss = log(1+e^{-y_if(x_i)})$

Convex

Convex Sets : 对于 $x_1,x_2 \in C$ ，对于任何 $\theta$ 满足 $0\leq\theta\leq1$ ，都有 $\theta x_1+(1-\theta) x_2\in C$ ，称这样的集合 $C$ 为凸集合，即对于集合中任意两点的连线，线上任意一点都还在集合中。
Convex Functions：如果 $f$ 定义在凸集合上，并且对于 $f$ 定义域内的所有 $x, y$ ，当 $0\leq \theta \leq 1$ 时，有 $f(\theta x+(1-\theta)y)\leq \theta f(x)+(1-\theta)f(y)$ ，称这样的 $f$ 为凸函数。当严格 $<$ 时，称 $f$ 为strictly convex。

General Optimization Problem

$\ \ \ \ \ f_0(x) \\ subject \ to \ \ \ f_i(x)\leq 0, \ i=1,2,...,m \\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ h_i(x)=0, i=1,2,...,p$

Lagrangian Duality

对于如下优化问题，

$\ \ \ \ \ f_0(x) \\ subject \ to \ \ \ f_i(x)\leq 0, \ i=1,2,...,m$

Lagrangian是 $\lambda)=f_0(x)+\Sigma_{i=1}^m\lambda_if_i(x)$

$\lambda_i$ 被叫做Lagrange multipliers ( 也叫做 dual variables )

如果 $\lambda_i\geq 0$ ，当 $x$ 满足约束条件的时候， $max\ L(x, \lambda)=f_0(x)$ ；当 $x$ 不满足约束条件的时候， $\ L(x, \lambda)=+\infty$ 。

所以对于原问题( primal )，我们想 $min_x \ f_0(x)$ ，相当于 $min_x \ max_{ \lambda_i\geq 0} \ L(x, \lambda)$

上面这个问题的对偶问题( dual )是 $max_{\lambda_i\geq0} \ min_x \ L(x, \lambda)$ , $g(\lambda) =min_x \ L(x, \lambda)$ 叫做Lagrange dual function。

而对于所有优化问题，对偶问题的解 $\leq$ 原问题的解，简单证明如下， $\ any\ x^0\in X \ and \ \lambda^0 \in \Lambda \\ min_x\ L(x, \lambda^0)\leq L(x^0, \lambda^0) \leq max_{\lambda} \ L(x^0,\lambda)\\ because \ the\ above\ equation \ is \ true \ for \ all \ x^0 \ and \ \lambda^0 \\ so \ \ max_{\lambda}\ min_x\ L(x, \lambda)\leq min_x\ max_{\lambda} \ L(x,\lambda)$
对于强对偶问题，对偶问题的解 $=$ 原问题的解，SVM恰好就是强对偶的情况，所以我们可以通过解对偶问题得到原问题的解。

而我们之所以要引入对偶问题的原因一般在于对偶问题相对于原问题更加好解。

Convex Optimization

standard form

$\ \ \ f_0(x) \\ subject \ to\ \ \ f_i(x)\leq0,i=1,2,...,m \\ f_i(x)\ is\ convex \ function$

而对于Convex Optimization的情况，一般都存在强对偶的性质。

Complementary Slackness

对于一个一般的优化问题，这个问题具有强对偶的性质，第 $i$ 个最优拉格朗日乘子 $\lambda_i^*$ ，与在最优解 $x^*$ 处的第 $i$ 个约束问题 $f_i(x^*)$ 的值乘积为0，即 $\lambda_i^*f_i(x^*)=0$ ，这个性质叫做Complementary Slackness。

证明如下，因为强对偶性，原问题与对偶问题有相同的解，所以

$f_0(x^*) = g(\lambda^*)=min_x \ (f_0(x)+\Sigma_{i=1}^m\lambda_i^*f_i(x))\leq \\f_0(x^*)+\Sigma_{i=1}^m\lambda_i^*f_i(x^*)\leq f_0(x^*)$

SVM

$min_{w,b} \ \frac{1}{2}||w||^2+\frac{c}{n}\Sigma_{i=1}^nmax\{1-y_i(w^Tx_i+b), 0\}$

前面一项是 L2正则化，后面一项是 Empirical Risk。但是由于上述 loss function 在某些点不可导，所以转换为如下形式

$min_{w,b}\ \frac{1}{2}||w||^2+\frac{c}{n}\Sigma_{i=1}^n\xi_i \\ s.t. \ -\xi_i\leq0 \\ 1-y_i(w^Tx_i+b)-\xi_i\leq 0$

根据之前所述的拉格朗日乘子法，
$L(w,b,\xi,\alpha,\lambda)=\frac{1}{2}||w||^2+\frac{c}{n}\Sigma_{i=1}^n\xi_i+ \\ \Sigma_{i=1}^n\alpha_i(1-y_i(w^Tx_i+b)-\xi_i)+\Sigma_{i=1}^n\lambda_i(-\xi_i)$

整理得到，
$L(w,b,\xi,\alpha,\lambda)=\frac{1}{2}||w||^2+\Sigma_{i=1}^n\xi_i(\frac{c}{n}-\lambda_i-\alpha_i)+ \\ \Sigma_{i=1}^n\alpha_i(1-y_i(w^Tx_i+b))$

所以原问题为 $min_{w,b,\xi} \ max_{ \alpha,\lambda\geq 0} \ L(w,b,\xi,\alpha,\lambda)$ ，对偶问题为 $max_{ \alpha,\lambda\geq 0} \ min_{w,b,\xi} \ L(w,b,\xi,\alpha,\lambda)$

因为SVM为强对偶的情况，所以原问题的解与对偶问题的解相同。

Lagrange dual function $g(\alpha, \lambda)=min_{w,b,\xi}L(w,b,\xi,\alpha,\lambda)$ ，因为要求最值，并且 $L$ 对 $w,b,\xi$ 为凸且可导的，所以分别对 $w,b,\xi$ 求导，令导数为0即可。

$\frac{\partial L}{\partial w}=0$ 可得 $w=\Sigma_{i=1}^n\alpha_iy_ix_i$

$\frac{\partial L}{\partial b}=0$ 可得 $\Sigma_{i=1}^n\alpha_iy_i=0$

$\frac{\partial L}{\partial \xi_i}=0$ 可得 $\alpha_i+\lambda_i=\frac{c}{n}$

带入 $L$ ，得到 $g(\alpha, \lambda)=\Sigma_{i=1}^n\alpha_i-\frac{1}{2}\Sigma_{i,j=1}^n\alpha_i\alpha_jy_iy_jx_j^Tx_i$

此时，我们的对偶问题已经解决了一半，另一半是 $max_{\alpha,\lambda\geq0}\ \ g(\alpha,\lambda)\\ s.t. \ \ \ \Sigma_{i=1}^n\alpha_iy_i=0,\alpha_i+\lambda_i=\frac{c}{n},\alpha_i,\lambda_i\geq0$

可以通过SMO方法求解。

如果对偶问题的解为 $\alpha^*$ ，则原问题的解为 $w^*=\Sigma_{i=1}^n\alpha_i^*y_ix_i$ ，即 $w^*$ 是 $x_i$ 的线性组合。对应 $\alpha_i^*\neq0$ 的 $x_i$ ，为 Support Vector。

根据之前介绍的 Complementary Slackness，

$\alpha_i^*(1-y_i(w^{*T}x_i+b^*)-\xi_i^*)=0$
$\lambda_i(\xi_i^*)=(\frac{c}{n}-\alpha_i^*)\xi^*_i=0$

所以，如果 $y_i(w^{*T}x_i+b^*)>1$ ， $\xi_i^*=0$ ， $\alpha_i^*=0$ ；如果 $y_i(w^{*T}x_i+b^*)<1$ ， $\xi_i^*\neq0$ ， $\alpha_i^*=\frac{c}{n}$ ；如果 $y_i(w^{*T}x_i+b^*)=1$ ， $\alpha_i^*\in[0,\frac{c}{n}]$ 。

所以，Support Vector对应 $y_i(w^{*T}x_i+b^*)\leq1$ 的样本。

在我们得到 $w^*$ 之后，如何得到 $b^*$ 呢？

对于 $\alpha_i^*\in(0,\frac{c}{n})$ 的点， $y_i(w^{*T}x_i+b^*)=1$ ，即 $b^*=y_i-w^{*T}x_i$ ，对于每一个点求出的 $b$ 平均数，得到 $b^*$ 。

到此为止，完成了 Linear SVM 的推导过程。

参考资料：NYU《Machine Learning》

转行的炼丹师

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习 - 损失函数和支持向量机SVM

本文主要对机器学习的损失函数进行介绍回归一般来说，回归问题的 loss function 取决于 residual y−y^y-\hat yy−y^，说明我们比较关心预测值y^\hat yy^与实际值yyy之间的绝对差距。但是如果我们比较关心预测值y^\hat yy^是实际值yyy的几倍的时候，可以将yyy做 log transform，然后就可以回到我们熟悉的残差版本。...
复制链接

扫一扫

专栏目录