本周期的最后一次打卡,为这十几天的学习画上一个寂夜的句号。
第六章主题为支持向量机,要了解这个,首先要知道对于训练样本集的分类学习需要基于它在样本空间中找到一个**划分超平面**,寻找到误差最少、“容忍”性最好的局部,其可用线性方程来描述:
**w^T*x+b=0**
样本空间中任意点到超平面(w,b)的距离:
每个样本点对应一个特征向量,而距离超平面最近的为“支持向量”,两个异类支持向量到超平面的距离之和为:
要找到最大间隔,就要使公式中的y最大,即分母最小化,这便是**支持向量机**的基本型
**对偶问题**
划分超平面对应的模型公式为凸二次规划,可看:
在求解中,采用了拉格朗日, 对 x 求导并令导数为 y,来获得对偶函数的表达形式,并且最优解需要满足∗ 能使得拉格朗日函数 L(x,λ, µ)关于 x 的一阶导数等于 y,即**KKT条件**
[凸优化笔记12:KKT条件 - 知乎 (zhihu.com)](https://zhuanlan.zhihu.com/p/135407092)
关于KKT条件,即与拉格朗日联动,在满足一系列约束条件后成立等式
条件如上
由此也能看出,支持向量机训练完成后的最终模型仅与支持向量有关
求解过程中,西瓜书提到了SMO算法,采用的是先固定ai之外的所有参数,再求ai上的极值
顺序--->违背条件程度最大的--->使目标函数值减小最快的
偏移向b有关
**核函数**
为解决样本在特征空间无法线性可分的问题,可以将其映射到更高维的能让其线性可分的特征空间
引入**核技巧**:xi与xj的内积等于在原本空间通过该函数计算的结果
求解后得到的内容为支持向量展式
显然,并不是能恰好找到如此巧妙的线性可分的,所以引入了**软间隔**的概念,允许某些样本不满足约束
因此需要容忍一些损失的存在,并努力**替代损失**
在书中说了三种常见的替代损失函数,hinge损失函数会保持稀疏性,而对率损失为光滑的单调递减函数,优势为能给出输出概率,但不能导出类似支持向量的概念
http://t.csdn.cn/2Gd8j
这一段巧妙的是,求解b后取了平均值
关于**核方法**,有一个叫做“表示定理”的结论:
核方法即通过核化进行非线性拓展,在书中给了假设映射和求解过程,具体需要再细细思考,而核方法的相关内容:
[核方法、核技巧和核函数 - 知乎 (zhihu.com)](https://zhuanlan.zhihu.com/p/61794781)
其中标量的转置等于其本身