有监督学习:根据已有的输入与输出,生成一个输入-输出的映射函数。迭代前有人为操控。
无监督学习:直接对输入数据集进行建模。半监督学习:综合利用有类标和没类标的数据,生成合适的分类函数。
分类:分类器从已有的训练集中学习,之后可以对未知的数据集进行分类。(有监督)
聚类:不需要对训练集进行学习,只需要计算相识度,把相似的东西分到一组,而不关心是哪一类。(无监督)
SVM是支持向量机,其中机指的是算法,不是机器。
这是一个有监督的学习模型,是个二类分类器,找到一个分割线把样本分成两类。SVM最初是解决线性可分的问题,也可以通过松弛变量和核函数去解决非线性可分的问题。在小样本低维度时比较有效。
支持向量:下图中加粗的点,即超平面距离两个类的数据的最近点。
分割线:有多条分割线把两个类分开,那么要选择一条最优的分界线使得它到两边的margin都最大。
优化目标:最大化分类的超平面和两类数据的间距,让超平面距离两个类的数据的最近点,最远。
泛化误差界的公式:R(w)≤Remp(w)+Ф(n/h)
R(w)是真实风险,Remp(w)是经验风险,Ф(n/h)是置信风险。统计学习的目标从经验风险最小化变为了寻求经验风险与置信风险的和最小,即结构风险最小。SVM正是为了努力最小化结构风险。
此外,SVM还可以拓展到多维空间: