总结自svm八股文
VC维越高,一个问题就越复杂
经验风险Remp(w):使用分类器在样本数据上的分类的结果与真实结果(因为样本是已经标注过的数据,是准确的数据)之间的差值。
置信风险:代表了我们在多大程度上可以信任分类器在未知文本上分类的结果。置信风险与两个量有关,一是样本数量,二是分类函数的VC维、
SVM擅长应付样本数据线性不可分的情况
不考虑维度,线性函数又称为超平面
判别函数:f(x)=sgn[g(x)] 内层gx为线性函数,外层是sgn符合函数
g(x)=wx+b这个表达式要注意三点::一,式中的x不是二维坐标系中的横轴,而是样本的向量表示二,这个形式并不局限于二维的情况三,g(x)不是中间那条直线的表达式,中间那条直线的表达式是g(x)=0
||w||叫做向量w的范数,范数是对向量长度的一种度量。我们常说的向量长度其实指的是它的2-范数
误分次数的上界由几何间隔决定因此最大化几何间隔成了我们训练阶段的目标
函数的引入不也是为了解决线性不可分的问题
松弛变量也就是个解决线性不可分问题的方法
一个比较完整的支持向量机框架就有了,简单说来,支持向量机就是使用了核函数的软间隔线性分类法。