第二章 感知机
2.1 感知机模型
- 是一类二类分类的线性模型
- 模型:从假设空间中找到的一个最优的
- 决策函数:
- 属于判别模型
- 分离超平面:下图 左下为正例,右上为负例
2.2 感知机学习策略
-
定义经验损失函数极小化
-
损失函数的两种选择:
- 误分类点的总数:但该函数不是参数w,b的连续可导函数
- 误分类点到超平面S的总距离: 感知机采样该策略,因为该函数不是参数w,b的连续可导函数
- 上式的系数可去,因为w,b分别乘了个系数之后,变成另一个w1,b1,但我们只是为了求出参数w,b,故可去。
-
感知机学习的策略是在假设空间中选取使损失函数最小的模型参数w,b ,即感知机模型。
2.3 感知机学习算法
-
求解最优化问题:
- 随机梯度下降法 vs 批量梯度下降
- 后者,数据量大,慢
- 感知机中选用前者,极小化过程一次随机选取一个误分类点使其梯度下降。
- 随机梯度下降法 vs 批量梯度下降
-
损失函数L(w,b)的梯度:
注:上面的两个式子都是正的 -
对w,b进行更新
-
感知机学习算法由于采用不同的初值或选取不同的误分类点,解可以不同。
-
感知机算法存在许多解,既依赖于初值,也依赖迭代 过程中误分类点的选择顺序。
-
为了得到唯一的超平面,需要对分离超平面增加约束条件,即线性支持向量机的想法,——> 间隔最大化。
2.3.2 算法的收敛性
- 感知机对于线性可分的决策函数,有解且收敛(迭代次数有上界)
- 当训练集线性不可分时,感知机算法不收敛,迭代结果会发生震荡,故线性不可分的问题,不能使用感知机。
2.3.3 感知机学习算法的对偶形式
-
- 与原始形式一样,感知机学习算法的对偶形式迭代是收敛的,存在多个解。