Hinge loss

最新推荐文章于 2024-01-04 11:31:13 发布

mjj_1094

最新推荐文章于 2024-01-04 11:31:13 发布

阅读量456

点赞数

分类专栏：机器学习文章标签： Hinge loss

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

 
 
  
  ＃ 基础

The Hinge Loss 定义为 E(z) = max(0,1-z)，在图中是蓝色的线所表示的那个，the Log Loss 为红色的线所表示，而 the Square Loss 是绿色  the misclassification error 用黑色表示。


  
  

   
   

   
   
    
    Figure 1
   
   

  
  

Figure 1 来自 
  
  Chris Bishop's PRML book

Hinge Loss 最常用在 SVM 中的最大化间隔分类中
  
  ^[1]。

对可能的输出 
  
  t = ±1 和分类器分数 
  
  y，预测值 
  
  y 的 hinge loss 定义如下：


  
  

   
   

   
   

  
  

  
  看到 y 应当是分类器决策函数的“原始”输出，而不是最终的类标。例如，在线性的 SVM 中


  
  

   
   

   
   

  
  

可以看出当 
  
  t 和 
  
  y 有相同的符号时（意味着 
  
  y 预测出正确的分类）


  
  

   
   

   
   

  
  此时的 hinge loss 
  
  

   
   

   
   

  
  但是如果它们的符号相反 
  
  

   
   

   
   

  
   则会根据 
  
  y 线性增加 one-sided error。

  
  扩展

  
  尽管 SVM 常常被采用 1 v all 或者 1v1 的方式扩展到 multiclass classification中 ^[2]，事实上还有一种“真正的”多类 Hinge loss 版本，由Crammer and Singer,^[3]提出，

在^[4]中给出定义了。

  
  

   
   

   
   

  
  

  
  在 结构化推断structured prediction中，hinge loss 可以被更远地扩展到结构话输出空间上。采用下面的变体的间隔重形变技术的Structured SVMs  ，其中 y 表示 SVM 的参数, φ 是联合特征函数， 而 Δ 是 Hamming loss:


  
  

   
   

   
   

  
  

  
  优化

  
  Hinge loss 是一个 凸函数, 所以很多常用的凸优化技术都可以使用。不过它是不可微的, 只是有subgradient 
  
  

   
   

   
   

  
  这个是跟线性 SVM 的模型参数 
  
  w 相关，其得分函数为


  
  

   
   

   
   

  
  

  
  

  
  
然而，因为 Hinge loss 的导数不是确定型的，
  
  

   
   

   
   

  
  
  
  所以人们多采用平滑后的版本进行优化，例如二次平滑



  
  

   
   

   
   

  
  

  
  在这篇文章中 Zhang 提出这样的想法。^[5]

[Modified Huber loss] 是这个 loss function 的特例 ^[5]，其中 
  
  

   
   
  
  
 
 

作者：Not_GOD
链接：http://www.jianshu.com/p/4a40f90f0d98
來源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。