林轩田机器学习技法课程笔记六支持向量回归

最新推荐文章于 2020-04-22 17:48:56 发布

我岂是非人哉

最新推荐文章于 2020-04-22 17:48:56 发布

阅读量233

收藏

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ben1010101010/article/details/90207951

版权

机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

Lecture 6: Support Vector Regression

有regularization的regression: ridge regression

linear vs kernel: trade-off between efficiency and flexibility

tube regression: epsilon-insensitive error

tube regression比squared regression长得慢=> less affected by outliers

为什么要分开upper tube violation和lower tube violation?如果不分开，推导出来之后，写出dual会稍微难写一点。

parameter C: trade-off of regularization & tube violation

parameter epsilon: vertical tube width—one more parameter to choose!(与svm不同)

svr困难的一点在于参数的选择

管子的宽度不是太好调，epsilon并不好控制，是tube regression没人用的一个原因。

有的application不在意squared error，在意absolute error。因为squared error sensitive to outlier than absolute error。但是absolute error的最佳化不是那么好做。

Tube regression把epsilon设成0，把它作为absolute error的optimizer。

err(hat)只是用来做formulation/optimization，不会用来衡量model的好坏。

对于min wTw找不到直觉的解释(physical sense)，最信服的解释是：他就是L2-regularization。

tube是为了创造sparsity，但是为什么要max tube的宽度。二十年过去了，没有找到这个问题的答案。

kernel还有另一种解释：函数空间里面的內积而不是向量空间里面的內积

linear的世界里，soft margin SVM和logistic regression都可以，只是习惯的差别

L2 loss hinge error的平方版本，穩定度稍微差一點

Gausian Distribution L2-distance

Laplacian Distribution L1-distance，相减取绝对值

证明Laplacian Kernel满足Mercer’s condition，林轩田在论文中证明了，有考虑过出成作业。

在特别的问题里，比如counting data（x的每一个维度是正整数，比如histogram）, Laplacian Kernel比Gausian Kernel 好用。

当年，万恶的deep learning还没有出来，也会用counting data去解决一些图像的问题。

但是大多数的counting data不应该是rotation invariant，所以也不算完全解决，那有没有比Laplacian Kernel更好的kernel呢？

kernel描述的是一個框架，你有这么多的工具可以用。

deep learning是一個框架，在框架裏面哪個structure（CNN/RNN)好用，是research的問題。

我岂是非人哉

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值