从动力学角度看优化算法:SGD ≈ SVM?

论文研究表明,通过梯度下降学到的模型可近似视为Kernel Machine,即SVM。尽管现代深度学习模型不直接存储训练数据,但其优化过程可视为一种检索训练样本的机制,揭示了深度学习与传统核方法间的内在联系,为模型解释性和优化算法提供新见解。
摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者|苏剑林

单位|追一科技

研究方向|NLP、神经网络

众所周知,在深度学习之前,机器学习是 SVM(Support Vector Machine,支持向量机)的天下,曾经的它可谓红遍机器学习的大江南北,迷倒万千研究人员,直至今日,“手撕 SVM”仍然是大厂流行的面试题之一。然而,时过境迁,当深度学习流行起来之后,第一个革的就是 SVM 的命,现在只有在某些特别追求效率的场景以及大厂的面试题里边,才能看到 SVM 的踪迹了。

峰回路转的是,最近 Arxiv 上的一篇论文 Every Model Learned by Gradient Descent Is Approximately a Kernel Machine 做了一个非常“霸气”的宣言:任何由梯度下降算法学出来的模型,都是可以近似看成是一个 SVM!

论文标题:

Every Model Learned by Gradient Descent Is Approximately a Kernel Machine

论文链接:

https://arxiv.org/abs/2012.00152

这结论真不可谓不“霸气”,因为它已经不只是针对深度学习了,而且只要你用梯度下降优化的,都不过是一个 SVM(的近似)。笔者看了一下原论文的分析,感觉确实挺有意思也挺合理的,有助于加深我们对很多模型的理解,遂跟大家分享一下。

SVM基础

一般的 SVM 可以表示为如下形式:

其中 是训练数据对, 是可学习参数,标准核机器的输出是一个标量,所以这里考虑的 都是标量。 则称为“核函数”,它衡量了输入 x 与训练样本 之间的某种相似度。SVM 是更广义的“核机器(Kernel Machine)”模型的一种(可能是最出名的一种),属于“核方法”范畴。

直观理解,其实 SVM 就是一个检索模型,它检索了输入与所有训练样本的相似度 ,然后加权求和。所以,严格上来说,SVM 的参数量除了各个

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值