【搬运自同人博客】
https://blog.csdn.net/qq_36810398/article/details/88298960blog.csdn.net本文直译自《hands on ML》课后题。(有改动的以【】表示)。
1.支持向量机的基本原理(fundamental idea)是什么?
【硬间隔】支持向量机的基本原理是在(不同的)类间找到合适的最宽的‘街道’(street)。换句话说,目标是在划分两类训练样本的决策边界之间找到最大的间隔。
【软间隔】当用软间隔(soft-margin)进行分类时,SVM在‘完美划分两类’和‘找到最宽街道’之间做一个折中(亦即少数样本会落到‘街道’上)。
【核】另外一个关键思想是当在非线性数据集上用核(kernel)。
2. 什么是支持向量(support vector)?
训练完一个SVM之后,落在‘街道’(street)及其边界上的样本称为支持向量。 决策边界完全由这些支持向量决定。不是支持向量的样本(亦即远离‘街道’的那些)对SVM没有任何影响;可以移除它们,添加更多样本或者移动它们,只要它们远离‘街道’它们就不会影响决策边界。计算预测值时只用到支持向量而非整个训练集。
3.为什么用SVM的时候,scale the input 很重要?
SVM是在不同的类中寻找最宽的合适街道,因此如果训练集没有scaled,SVM倾向于忽视小特征。如下图所示:左图为Unscaled,右图为Scaled。