Lecture 5: Kernel Logistic Regression
soft-margin在实物上面使用比较多,很少有人会去用hard-margin
LIBLINEAR/LIBSVM-opensource software
LIBLINEAR专门用来解linear svm
LIBSVM专门用来解dual, kernel svm
Soft-Margin SVM就是L2 regularization
为什么不用regularization的方法来解呢?
(1)不是QP的问题,没有办法用到kernel
(2)不可以微分,不好解
附注:但是只是2000年时不能解,那时候成熟的方法是differential based的方法例如gradient descent。但是现在来看,即使没有严格的收敛性的证明,还是可以跑的好好的,所以在deep learning界不是问题。 AI界战神说的fancy math其实就是L2 regularization。
Large margin其实就是一种regularization的实现
largin margin <=> fewer hyperplanes <=> L2 regularization
soft margin <=> special err(hat)
larger C <=> smaller lamda <=> less regularization
err svm hat=max(1-ys, 0)被称为hinge error measure
SVM ≈ L2-regularized logistic regression
Probabilistic SVM/Two-Level Learning(Platt’s Model)第二个阶段解的只是单一维度,两个变量的LogReg问题
真的在Z空间做LogReg?
能够使用kernel的关键是能够将最佳的w表示成zn的线性组合
Representer Theorem
w平行:可以用z表示出来的(在zn所展开的空间可以表现出来的)
w垂直:不可以用z表示出来的
any L2-regularized linear model can be kernelized!
KLR可以表示成w的线性模型,也可以表示成beta的线性模型。
KLR的问题,beta很多都不是0,要付出计算上的代价!