前两天看到
《CNN Features off-the-shelf: an Astounding Baseline for Recognition》
里面用了
这种网络在各种任务下证明了cnn提取到的特征是更有效的,我就想到最后分类层用的svm和softmax到底哪个更好一些(基础问题了,但我不懂)
于是找到了这
CS231n Convolutional Neural Networks for Visual Recognition
具体来说 hinge loss,也就是svm会把正负样本的预估值拉开一定的差距后就不再优化了,loss=0
但是softmax永远不会满足,loss虽然越来越小,但会始终存在的。
课程里也提到对loss加入正则项的动机:分类器的作用是把正确和错误的差距拉大,比如现在是0.1,那么w简单的扩大10倍,也能做到把差距从0.1变到1的效果。为了在同一个量级训练出不同性能的分类器,以避免这种模棱两可的情况发生,就加入了正则化