第2章 感知机
介绍感知机模型, 叙述感知机的学习策略, 特别是损失函数; 最后介绍感知机学习算法,包括原始形式和对偶形式, 证明算法的收敛性.
感知机模型
f ( x ) = s i g n ( w ⋅ x + b ) f(x)=sign(w\cdot x + b) f(x)=sign(w⋅x+b)是模型函数
w w w和 b b b是模型参数, 分别叫权值和偏置.
感知机是判别模型.假设空间是线性分类器集合
{ f ∣ f ( x ) = w ⋅ x + b } \{f|f(x)=w\cdot x+b \} { f∣f(x)=w⋅x+b}
w ⋅ x + b = 0 w\cdot x + b=0 w⋅x+b=0 确定一个超平面
感知机学习策略
线性可分数据集的定义
- 定义损失函数, 并将损失函数极小化.
- 损失函数可以使用误分类点到超平面的总距离
损失函数的定义为 L ( w , b ) = − ∑ y i ( w ⋅ x i + b ) L(w,b)=-\sum y_i(w\cdot x_i + b) L(w,b)=−∑yi(w⋅xi+b)
- 感知机学习算法
最优化方法是随机梯度下降法,包括原始形式和对偶形式, 证明在训练数据线性可分的条件下, 感知机学习算法的收敛性.
- 算法的原始形式
min w , b L ( w , b ) = − ∑ y i ( w ⋅ x i + b ) \min\limits_{w,b}L(w, b)=-\sum y_i(w\cdot x_i + b) w,bminL(w,b)=−∑yi(w⋅xi+b)
感知机学习算法是误分类驱动的, 具体采用随机梯度下降法. 首先, 选一个超平面, 然后用梯度下降法不断极小化目标函数. 极小化一次随机选一个误分类点使其梯度下降.假设误分类点集合是固定的.梯度的定义
▽ w L ( w , b ) = − ∑ x i ∈ M y i x i \triangledown_w L(w, b) = -\sum\limits_{x_i\in M}y_i x_i ▽wL(w,b)=−xi∈M∑yi