Lecture 6: Support Vector Regression
有regularization的regression: ridge regression
linear vs kernel: trade-off between efficiency and flexibility
tube regression: epsilon-insensitive error
tube regression比squared regression长得慢=> less affected by outliers
为什么要分开upper tube violation和lower tube violation?如果不分开,推导出来之后,写出dual会稍微难写一点。
parameter C: trade-off of regularization & tube violation
parameter epsilon: vertical tube width—one more parameter to choose!(与svm不同)
svr困难的一点在于参数的选择
管子的宽度不是太好调,epsilon并不好控制,是tube regression没人用的一个原因。
有的application不在意squared error,在意absolute error。因为squared error sensitive to outlier than absolute error。但是absolute error的最佳化不是那么好做。
Tube regression把epsilon设成0,把它作为absolute error的optimizer。
err(hat)只是用来做formulation/optimization,不会用来衡量model的好坏。
对于min wTw找不到直觉的解释(physical sense),最信服的解释是:他就是L2-regularization。
tube是为了创造sparsity,但是为什么要max tube的宽度。二十年过去了,没有找到这个问题的答案。
kernel还有另一种解释:函数空间里面的內积而不是向量空间里面的內积
linear的世界里,soft margin SVM和logistic regression都可以,只是习惯的差别
L2 loss hinge error的平方版本,穩定度稍微差一點
Gausian Distribution L2-distance
Laplacian Distribution L1-distance,相减取绝对值
证明Laplacian Kernel满足Mercer’s condition,林轩田在论文中证明了,有考虑过出成作业。
在特别的问题里,比如counting data(x的每一个维度是正整数,比如histogram), Laplacian Kernel比Gausian Kernel 好用。
当年,万恶的deep learning还没有出来,也会用counting data去解决一些图像的问题。
但是大多数的counting data不应该是rotation invariant,所以也不算完全解决,那有没有比Laplacian Kernel更好的kernel呢?
kernel描述的是一個框架,你有这么多的工具可以用。
deep learning是一個框架,在框架裏面哪個structure(CNN/RNN)好用,是research的問題。