林轩田机器学习技法课程笔记六 支持向量回归

Lecture 6: Support Vector Regression


有regularization的regression: ridge regression

linear vs kernel: trade-off between efficiency and flexibility

tube regression: epsilon-insensitive error

tube regression比squared regression长得慢=> less affected by outliers

为什么要分开upper tube violation和lower tube violation?如果不分开,推导出来之后,写出dual会稍微难写一点。

parameter C: trade-off of regularization & tube violation

parameter epsilon: vertical tube width—one more parameter to choose!(与svm不同)

svr困难的一点在于参数的选择

管子的宽度不是太好调,epsilon并不好控制,是tube regression没人用的一个原因。

有的application不在意squared error,在意absolute error。因为squared error sensitive to outlier than absolute error。但是absolute error的最佳化不是那么好做。

Tube regression把epsilon设成0,把它作为absolute error的optimizer。

err(hat)只是用来做formulation/optimization,不会用来衡量model的好坏。

对于min wTw找不到直觉的解释(physical sense),最信服的解释是:他就是L2-regularization。

tube是为了创造sparsity,但是为什么要max tube的宽度。二十年过去了,没有找到这个问题的答案。

 

 

kernel还有另一种解释:函数空间里面的內积而不是向量空间里面的內积

linear的世界里,soft margin SVM和logistic regression都可以,只是习惯的差别

L2 loss hinge error的平方版本,穩定度稍微差一點

 

 

Gausian Distribution L2-distance

Laplacian Distribution L1-distance,相减取绝对值

证明Laplacian Kernel满足Mercer’s condition,林轩田在论文中证明了,有考虑过出成作业。

在特别的问题里,比如counting data(x的每一个维度是正整数,比如histogram), Laplacian Kernel比Gausian Kernel 好用。

当年,万恶的deep learning还没有出来,也会用counting data去解决一些图像的问题。

但是大多数的counting data不应该是rotation invariant,所以也不算完全解决,那有没有比Laplacian Kernel更好的kernel呢?

kernel描述的是一個框架,你有这么多的工具可以用。

deep learning是一個框架,在框架裏面哪個structure(CNN/RNN)好用,是research的問題。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值