感知机

感知机介绍

感知机是一种线性二分类器。与一般的模型一样,具有输入 T = ( x 1 , y 1 ) , . . . , ( x N , y N ) T = {(x_1, y_1), ..., (x_N, y_N)} T=(x1,y1),...,(xN,yN)(其中, ( x i , y i ) (x_i, y_i) (xi,yi)是一个样本)、输出w、b,输入到输出的函数为 f ( x i ) = s i g n ( w ⋅ x i + b ) f(x_i) = sign(w·x_i + b) f(xi)=sign(wxi+b)。其中, f ( x i ) f(x_i) f(xi)取值范围为 { − 1 , + 1 } \{-1, +1\} {1,+1}。根据这样的输入输出,统计错误分类的样本数。但是错误分类的样本数对于w和b而言是不可导的,如果要使用梯度下降算法进行优化,那么根据错误分类的样本数来进行损失函数的设计会导致该问题不可优化。所以,改用错误分类样本到分离超平面的距离来进行损失函数的设计(分离超平面为 w ⋅ x + b = 0 w·x + b = 0 wx+b=0)。

错误分类样本到超平面的距离

假设 ( x 0 , y 0 ) (x_0, y_0) (x0,y0)为错误分类的样本,根据点到平面的距离,则错误分类样本到超平面的距离为: d = − y i ( w ⋅ x i + b ) ∣ ∣ w ∣ ∣ d = \frac{-y_i(w·x_i + b)}{||w||} d=wyi(wxi+b)
其中, ∣ ∣ w ∣ ∣ ||w|| w是L2范数。由于在优化过程中, ∣ ∣ w ∣ ∣ ||w|| w是一个可学习的参数,故可省略。

损失函数的定义

假设错误分类样本数为m,则损失函数可以定义为所有错误分类样本数到超平面距离的和。
L o s s = − ∑ i ∈ m N y i ( w ⋅ x i + b ) Loss = -\sum_{i\in m}^N {y_i(w·x_i + b)} Loss=imNyi(wxi+b)
由此可知,当有错误分类时,Loss为非负值。对于单个样本而言,正确分类样本不计入Loss中,所以Loss为0。

收敛性证明

假设有k个错误分类样本,已经证明,k的取值是有限的( k ≤ ( R γ ) 2 k\leq(\frac{R}{\gamma})^2 k(γR)2)。所以,经过有限步的优化后,可以使得错误分类样本数为0。

感知机算法

  1. 输入$T = {(x_0, y_0), …, (x_N, y_N)},设 0 &lt; η ≤ 1 0&lt;\eta\leq1 0<η1$;
  2. 输出w, b.
  3. 初始化w、b;
  4. 在训练集中随机选取样本 ( x i , y i ) (x_i, y_i) (xi,yi)
  5. 判断为错误分类条件: y i ( w ⋅ x i + b ) ≤ 0 y_i(w·x_i + b) \leq0 yi(wxi+b)0,则:
    w ← w + η y i ⋅ x i w\leftarrow w+\eta y_i·x_i ww+ηyixi b ← b + η y i b\leftarrow b +\eta y_i bb+ηyi
  6. 转到4

感知机算法的对偶形式

原始感知机算法是通过对w、b求导,进行梯度优化的。设w = 0,b=0,则最终有 w = ∑ i = 1 N a i y i x i w = \sum_{i=1}^Na_iy_ix_i w=i=1Naiyixi b = ∑ i = 1 N a i y i b = \sum_{i=1}^N {a_iy_i} b=i=1Naiyi
其中, a i = n i η a_i = n_i\eta ai=niη
从而,可以根据感知机算法的原始形式来写出感知机算法的对偶形式。

  1. a ← 0 , b ← 0 a \leftarrow 0,b \leftarrow 0 a0b0
  2. 在训练集中选取数据 ( x i , y i ) (x_i, y_i) (xi,yi)
  3. 如果 y i ( ∑ j = 1 N a j y j x j ⋅ x i + b ) ≤ 0 y_i(\sum_{j=1}^Na_jy_jx_j·x_i + b) \leq 0 yi(j=1Najyjxjxi+b)0,则: a i ← a i + η a_i\leftarrow a_i + \eta aiai+η b ← b + η y i b\leftarrow b+\eta y_i bb+ηyi
  4. 转至2直到没有误分类数据。
    其中, x i x j x_ix_j xixj需要一直用到,所以可以将其矩阵化,设 G = [ x i ⋅ x j ] N × N G=[x_i·x_j]_{N\times N} G=[xixj]N×N,该矩阵即为所谓的Gram matrix。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值