小知识
概率模型:通过计算样本关于各个类的后验概率或似然概率,选取概率最大的那个类
判别模型:通过学习分离超平面的系数,将各类分开
判别模型计算条件概率。生成模型计算联合概率
感知机学习策略
介绍:感知机是一个线性分类模型,分离超平面是一个线性方程,学习这个线性函数的系数。
应用场景限制:线性可分数据集,包括后面的收敛性证明也依赖这个假设
学习策略:损失函数最小化
感知机损失函数
损失函数的直观反映是误分类的样本个数,但是需要连续可导函数,才能进行下一步的优化。所以使用误分类样本到分类超平面的距离之和作为损失函数。 − 1 ∣ ∣ w ∣ ∣ ∑ x i ∈ M y i ( w x i + b ) -\frac{1}{||w||}\sum_{x_{i}\in M}y_{i}(wx_{i}+b) −∣∣w∣∣1xi∈M∑yi(wxi+b)简化后得到 m i n w , b L ( w , b ) = − ∑ x i ∈ M y i ( w x i + b ) min_{w,b}L(w,b)=-\sum_{x_{i}\in M}y_{i}(wx_{i}+b) minw,bL(w,b)=−xi∈M∑yi(wxi+b)
感知机算法原始形式
参数更新
▽
w
L
(
w
,
b
)
=
−
∑
x
i
∈
M
y
i
x
i
\triangledown _{w}L(w,b)=-\sum_{x_{i}\in M}y_{i}x_{i}
▽wL(w,b)=−xi∈M∑yixi
▽
b
L
(
w
,
b
)
=
−
∑
x
i
∈
M
y
i
\triangledown _{b}L(w,b)=-\sum_{x_{i}\in M}y_{i}
▽bL(w,b)=−xi∈M∑yi
随机选取一个误差分类点进行梯度下降
w
←
w
+
η
y
i
x
i
w\leftarrow w+\eta y_{i}x_{i}
w←w+ηyixi
b
←
b
+
η
y
i
b\leftarrow b+\eta y_{i}
b←b+ηyi
采用不同的初值和不同的误分类点,解可以不同
离分类超平面近的点学习的次数更多,因为这些点是很难分辨的。
感知机算法收敛性
算法收敛性:在有限次搜索中找到分离超平面
【空位,下次复习手推补上】
用到了线性可分作为条件假设,当线性不可分时,感知机学习算法不收敛,迭代结果会发生震荡
感知机算法对偶形式
对偶形式的思想:在参数w,b更新的过程中就是不断将样本值的组合加到原参数上面。所以可以将参数表示为样本数据的线性组合的形式,通过学习该线性组合的系数,就可以把参数求出来。
【空位,下次复习手推补上】
算法加速的点是可以先把样本之间的内积提前算好存储为Gram矩阵