机器学习李宏毅 L31-Support Vector Machine

最新推荐文章于 2022-11-05 21:21:56 发布

OKgagaga

最新推荐文章于 2022-11-05 21:21:56 发布

阅读量305

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/guyanbeifei/article/details/79250271

版权

机器学习专栏收录该内容

28 篇文章 0 订阅

订阅专栏

Loss function的比较

这里， $\delta(g(x_n) \neq \hat{y}_n)$ 不可微分，因此采用 $l(f(x_n),\hat{y}_n)$ 代替。因此可以最小化该函数即可。

采用square loss，对于函数 $\hat{y}_nf(x)$ ，其中 $\hat{y}_n=1 \ or \ -1$ 则可以规定 $l(f(x_n),\hat(y)_n)=(\hat{y}_nf(x)-1)^2$ ，最终可以转换为当 $\hat{y}_n=1$ ，则f(x)需要更好地接近1；当 $\hat{y}_n=-1$ ，则f(x)需要更好地接近-1。但是此处会造成在横坐标很大时，会造成损失函数较大，这会造成错误。

较优的loss function是采用sigmoid+cross entropy，则最后的损失函数如下：

l (f (x n), y^n) = ln (1 + exp (- y^n f (x)))

$l(f(x_n),\hat{y}_n)=\ln(1+\exp(-\hat{y}_nf(x)))$

而Hinge loss的定义如下，则当 $\hat{y}_n=1$ ，对应的f(x)>1；而当 $\hat{y}_n=11$ ，对应的f(x)<-1。

l (f (x n), y^n) = max (0, 1 - y^n f (x))

$l(f(x_n),\hat{y}_n)=\max(0,1-\hat{y}_nf(x))$

Linear SVM

对于线性SVM，f(x)定义如下，当f(x)>0，则属于一类；反之，属于另外一类。Loss Function则定义如下，采用Hinge loss，同时还会加入正则项。可以证明，最后得到的损失函数 $L(f)$ 是一个凸函数，因此可以使用GD方法。注意，该函数在某些部分不可微分，

对于Linear SVM，采用GD进行训练，如下图所示，与RELU和MAXOUT情况类似，根据输出的情况判断更新的情况。

通常的linear SVM版本如下，可以使用充分不必要条件将最大值函数进行转化，其中 $\epsilon_n$ 为slack variable。当需要最小化 $\epsilon_n$ ，则二者相等的约束关系。这是一个Quadratic programming problem（二次规划问题）。

Kernel method

对于更新后的w，一般是输入数据点的线性组合。当初始化w=0，则下图中的 $\alpha^{\ast}_n$ 是前述的 $c^n(w)$ ，而该值很多是0，因此权重矩阵W为sparse，值不为0的点为support vectors。

进一步地，这里w为一个vector，而该列向量可以表示为下图公式，也就是存在一个X，使得X和alpha的乘积为权重向量w。这里得到的kernel为向量x乘以固定的x。

对于优化函数L，可以发现，只需要知道kernel function，也就是需要知道向量x和一个新向量z的内积，就可以进行优化。这称为kernel trick。

Kernel trick的具体如下图所示，也就是说kernel的求解可以拆为两个向量函数的内积。包含了平方的kernel、RBF kernel，sigmoid kernel。
当使用sigmoid kernel，可以想象成为只有一个hidden layer的网络，支持向量的个数就是神经元的个数。

OKgagaga

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习李宏毅 L31-Support Vector Machine

Loss function的比较这里，δ(g(xn)≠y^n)" role="presentation">δ(g(xn)≠y^n)δ(g(xn)≠y^n)\delta(g(x_n) \neq \hat{y}_n)不可微分，因此采用l(f(xn),y^n)" role="presentation">l(f(xn),y^n)l(f(xn),y
复制链接

扫一扫