概述:基于统计学习的三要素(模型、策略、算法),对感知机模型、感知机的学习策略和感知机的学习算法进行归纳总结。
1.感知机模型:
1.1感知机模型定义:
由输入空间X到输出空间Y={+1,-1}的如下函数称为感知机:
(1) f ( x ) = s i g n ( w ⋅ x + b ) f(x)=sign(w·x+b)\tag 1 f(x)=sign(w⋅x+b)(1)
其中, w w w和 b b b为感知机模型参数, w w w为权值或者权值向量(weight vector),b为偏置(bias),sign为符号函数,即
(2) s i g n ( x ) = { + 1 , x ≥ 0 − 1 , x ≤ 0 sign(x)= \left \{\begin{array}{cc} +1, &x\geq0\\ -1, &x\leq0 \end{array}\right.\tag2 sign(x)={+1,−1,x≥0x≤0(2)
感知机模型的假设空间是定义在特征空间中的所有线性分类模型(liner classification model)或线性分类器(liner classifier),即函数集:
{ f ∣ f ( x ) = w ⋅ x + b {f|f(x)=w·x+b} f∣f(x)=w⋅x+b}
感知机有如下几何解释:线性方程
(3) w ⋅ x + b = 0 w·x+b=0\tag3 w⋅x+b=0(3)
对于特征向量中的一个超平面S,其中w是超平面的法向量,b是超平面的截距。这个超平面将特征空间划分为两部分。位于两部分的点(特征向量)分别分为正、负两类。因此,超平面S称为分离超平面(separating hyperplane)。如图所示:
感知机学习,由训练数据集(实例的特征向量及类别)
(4) T = ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) T={(x_1,y_1),(x_2,y_2),...,(x_n,y_n)}\tag4 T=(x1,y1),(x2,y2),...,(xn,yn)(4)
其中, x i x_i xi ∈ X \in X ∈X, y i y_i yi ∈ Y \in Y ∈Y={+1,-1}, i = 1 , 2 , 3 , ⋯   , N i=1,2,3,\cdots,N i=1,2,3,⋯,N,求得感知机模型(公式1)。
2.感知机学习策略
2.1数据集的可分性
(1)数据集的可分性的定义:
(5) T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯   , ( x n , y n ) } T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)\} \tag5 T={(x1,y1),(x2,y2),⋯,(xn,yn)}(5)
其中, x i x_i xi ∈ X \in X ∈X, y i y_i yi ∈ Y \in Y ∈Y={+1,-1}, i = 1 , 2 , 3 , ⋯   , N i=1,2,3,\cdots,N i=1,2,3,⋯,N,如果存在某个超平面S
(6) w ⋅ x + b = 0 w·x+b=0\tag6 w⋅x+b=0(6)
能够将数据集的正实例点和负实例点完全正确地划分到超平面的两侧,即对所有的 y i = + 1 y_i=+1 yi=+1实例 i i i .有 w ⋅ x + b > 0 w·x +b>0 w⋅x+b>0 对所有 y i = − 1 y_i=-1 yi=−1 的实例 i i i,有 w ⋅ x + b > 0 w·x +b>0 w⋅x+b>0数据集T为线性可分数据集(linearly separable data set); 否则,称数据集T线性不可分。
2.2感知机学习策略
假设训练数据集是线性可分的,感知机学习的目标是求得一个能够将训练集正实例点和负实例点完全正确分开的分离超平面。为了找出这样的超平面,即确定感知机模型参数 w w w, b b b, 需要确定一个学习策略,即定义(经验)损失函数并将损失函数极小化。
损失函数的一个自然选择是误分类点的总数.但是,这样的损失函数不是参 w w w. b b b 的连续可导函数,不易优化损失函数的另一个选择是误分类点到超平面S的总距离,这是感知机所采用的,为此,首先写出输入空间 R n R^n Rn 中任一点与到超 x 0 x_0 x0平面S的距离:
显然,损失函数L ( w , b ) (w,b) (w,b)是非负的如果没有误分类点,损失函数值是0。而且,误分类点越少,误分类点离超平面越远,损失函数值就越小。一个特定的样本点的损失函数:在误分类时是参数 w , b w,b w,b的线性函数,在正确分类时是 0. 因此, 给定训练数据集 T. 损失函数L ( w . b ) (w.b) (w.b) 是 w . b w.b w.b 的连续可导函数。
感知机学习的策略是在假设空间中选取使损失函数式最小的模型参数 w , b w,b w,b即感知机模型。
3.感知学习算法
感知机学习问题转化为求解损失函数式的最优化问题,最优化的方法是随机梯度下降法。感知机学习的具体算法,包括原始形式和对偶形式。
3.1感知学习算法的原始形式
- 感知机学习算法是误分类驱动的,具体采用随机梯度下降(stochastic gradient descent)。首先,任意选取一个超平面,然后用梯度下降法不断地极小化目标函数(2.5)。极小化过程中不是一次使M中所有误分类点的梯度下降,而是一次随机选取一个误分类点使其梯度下降。
3.2感知机学习算法的对偶形式
现在考虑感知机学习算法的对偶形式。感知机学习算法的原始形式和对偶形式与支持向量机学习算法的原始形式和对偶形式相对应。