机器学习 李宏毅 L31-Support Vector Machine

Loss function的比较

这里, δ(g(xn)y^n) δ ( g ( x n ) ≠ y ^ n ) 不可微分,因此采用 l(f(xn),y^n) l ( f ( x n ) , y ^ n ) 代替。因此可以最小化该函数即可。

采用square loss,对于函数 y^nf(x) y ^ n f ( x ) ,其中 y^n=1 or 1 y ^ n = 1   o r   − 1 则可以规定 l(f(xn),(^y)n)=(y^nf(x)1)2 l ( f ( x n ) , ( ^ y ) n ) = ( y ^ n f ( x ) − 1 ) 2 ,最终可以转换为当 y^n=1 y ^ n = 1 ,则f(x)需要更好地接近1;当 y^n=1 y ^ n = − 1 ,则f(x)需要更好地接近-1。但是此处会造成在横坐标很大时,会造成损失函数较大,这会造成错误。

较优的loss function是采用sigmoid+cross entropy,则最后的损失函数如下:

l(f(xn),y^n)=ln(1+exp(y^nf(x))) l ( f ( x n ) , y ^ n ) = ln ⁡ ( 1 + exp ⁡ ( − y ^ n f ( x ) ) )

而Hinge loss的定义如下,则当 y^n=1 y ^ n = 1 ,对应的f(x)>1;而当 y^n=11 y ^ n = 11 ,对应的f(x)<-1。

l(f(xn),y^n)=max(0,1y^nf(x)) l ( f ( x n ) , y ^ n ) = max ( 0 , 1 − y ^ n f ( x ) )

Linear SVM

对于线性SVM,f(x)定义如下,当f(x)>0,则属于一类;反之,属于另外一类。Loss Function则定义如下,采用Hinge loss,同时还会加入正则项。可以证明,最后得到的损失函数 L(f) L ( f ) 是一个凸函数,因此可以使用GD方法。注意,该函数在某些部分不可微分,

对于Linear SVM,采用GD进行训练,如下图所示,与RELU和MAXOUT情况类似,根据输出的情况判断更新的情况。

通常的linear SVM版本如下,可以使用充分不必要条件将最大值函数进行转化,其中 ϵn ϵ n 为slack variable。当需要最小化 ϵn ϵ n ,则二者相等的约束关系。这是一个Quadratic programming problem(二次规划问题)。

Kernel method

对于更新后的w,一般是输入数据点的线性组合。当初始化w=0,则下图中的 αn α n ∗ 是前述的 cn(w) c n ( w ) ,而该值很多是0,因此权重矩阵W为sparse,值不为0的点为support vectors。

进一步地,这里w为一个vector,而该列向量可以表示为下图公式,也就是存在一个X,使得X和alpha的乘积为权重向量w。这里得到的kernel为向量x乘以固定的x。

对于优化函数L,可以发现,只需要知道kernel function,也就是需要知道向量x和一个新向量z的内积,就可以进行优化。这称为kernel trick。

Kernel trick的具体如下图所示,也就是说kernel的求解可以拆为两个向量函数的内积。包含了平方的kernel、RBF kernel,sigmoid kernel。
当使用sigmoid kernel,可以想象成为只有一个hidden layer的网络,支持向量的个数就是神经元的个数。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值