感知机介绍
感知机是一种线性二分类器。与一般的模型一样,具有输入 T = ( x 1 , y 1 ) , . . . , ( x N , y N ) T = {(x_1, y_1), ..., (x_N, y_N)} T=(x1,y1),...,(xN,yN)(其中, ( x i , y i ) (x_i, y_i) (xi,yi)是一个样本)、输出w、b,输入到输出的函数为 f ( x i ) = s i g n ( w ⋅ x i + b ) f(x_i) = sign(w·x_i + b) f(xi)=sign(w⋅xi+b)。其中, f ( x i ) f(x_i) f(xi)取值范围为 { − 1 , + 1 } \{-1, +1\} {−1,+1}。根据这样的输入输出,统计错误分类的样本数。但是错误分类的样本数对于w和b而言是不可导的,如果要使用梯度下降算法进行优化,那么根据错误分类的样本数来进行损失函数的设计会导致该问题不可优化。所以,改用错误分类样本到分离超平面的距离来进行损失函数的设计(分离超平面为 w ⋅ x + b = 0 w·x + b = 0 w⋅x+b=0)。
错误分类样本到超平面的距离
假设
(
x
0
,
y
0
)
(x_0, y_0)
(x0,y0)为错误分类的样本,根据点到平面的距离,则错误分类样本到超平面的距离为:
d
=
−
y
i
(
w
⋅
x
i
+
b
)
∣
∣
w
∣
∣
d = \frac{-y_i(w·x_i + b)}{||w||}
d=∣∣w∣∣−yi(w⋅xi+b)
其中,
∣
∣
w
∣
∣
||w||
∣∣w∣∣是L2范数。由于在优化过程中,
∣
∣
w
∣
∣
||w||
∣∣w∣∣是一个可学习的参数,故可省略。
损失函数的定义
假设错误分类样本数为m,则损失函数可以定义为所有错误分类样本数到超平面距离的和。
L
o
s
s
=
−
∑
i
∈
m
N
y
i
(
w
⋅
x
i
+
b
)
Loss = -\sum_{i\in m}^N {y_i(w·x_i + b)}
Loss=−i∈m∑Nyi(w⋅xi+b)
由此可知,当有错误分类时,Loss为非负值。对于单个样本而言,正确分类样本不计入Loss中,所以Loss为0。
收敛性证明
假设有k个错误分类样本,已经证明,k的取值是有限的( k ≤ ( R γ ) 2 k\leq(\frac{R}{\gamma})^2 k≤(γR)2)。所以,经过有限步的优化后,可以使得错误分类样本数为0。
感知机算法
- 输入$T = {(x_0, y_0), …, (x_N, y_N)},设 0 < η ≤ 1 0<\eta\leq1 0<η≤1$;
- 输出w, b.
- 初始化w、b;
- 在训练集中随机选取样本 ( x i , y i ) (x_i, y_i) (xi,yi)
- 判断为错误分类条件:
y
i
(
w
⋅
x
i
+
b
)
≤
0
y_i(w·x_i + b) \leq0
yi(w⋅xi+b)≤0,则:
w ← w + η y i ⋅ x i w\leftarrow w+\eta y_i·x_i w←w+ηyi⋅xi b ← b + η y i b\leftarrow b +\eta y_i b←b+ηyi - 转到4
感知机算法的对偶形式
原始感知机算法是通过对w、b求导,进行梯度优化的。设w = 0,b=0,则最终有
w
=
∑
i
=
1
N
a
i
y
i
x
i
w = \sum_{i=1}^Na_iy_ix_i
w=i=1∑Naiyixi
b
=
∑
i
=
1
N
a
i
y
i
b = \sum_{i=1}^N {a_iy_i}
b=i=1∑Naiyi
其中,
a
i
=
n
i
η
a_i = n_i\eta
ai=niη
从而,可以根据感知机算法的原始形式来写出感知机算法的对偶形式。
- a ← 0 , b ← 0 a \leftarrow 0,b \leftarrow 0 a←0,b←0
- 在训练集中选取数据 ( x i , y i ) (x_i, y_i) (xi,yi)
- 如果 y i ( ∑ j = 1 N a j y j x j ⋅ x i + b ) ≤ 0 y_i(\sum_{j=1}^Na_jy_jx_j·x_i + b) \leq 0 yi(∑j=1Najyjxj⋅xi+b)≤0,则: a i ← a i + η a_i\leftarrow a_i + \eta ai←ai+η b ← b + η y i b\leftarrow b+\eta y_i b←b+ηyi
- 转至2直到没有误分类数据。
其中, x i x j x_ix_j xixj需要一直用到,所以可以将其矩阵化,设 G = [ x i ⋅ x j ] N × N G=[x_i·x_j]_{N\times N} G=[xi⋅xj]N×N,该矩阵即为所谓的Gram matrix。