统计学习方法|感知机

本文详细介绍了感知机模型,它是一种线性分类模型,定义在输入空间X到输出空间Y={+1,-1}的函数。感知机模型通过超平面S进行线性分类,学习策略是寻找最小化误分类点距离的超平面。学习算法采用随机梯度下降法,分为原始形式和对偶形式。当训练数据线性可分时,感知机算法能收敛,但可能有多个解;若数据线性不可分,则不收敛。" 128646185,8340461,解决Ubuntu ROS找不到automotive_platform_msgs/nmea_msgs包配置文件问题,"['ROS开发', 'Ubuntu', '依赖安装', '传感器标定', 'Autoware', '消息包']
摘要由CSDN通过智能技术生成
概述:基于统计学习的三要素(模型、策略、算法),对感知机模型、感知机的学习策略和感知机的学习算法进行归纳总结。

1.感知机模型:

1.1感知机模型定义:

由输入空间X到输出空间Y={+1,-1}的如下函数称为感知机:

(1) f ( x ) = s i g n ( w ⋅ x + b ) f(x)=sign(w·x+b)\tag 1 f(x)=sign(wx+b)(1)

其中, w w w b b b为感知机模型参数, w w w为权值或者权值向量(weight vector),b为偏置(bias),sign为符号函数,即

(2) s i g n ( x ) = { + 1 , x ≥ 0 − 1 , x ≤ 0 sign(x)= \left \{\begin{array}{cc} +1, &x\geq0\\ -1, &x\leq0 \end{array}\right.\tag2 sign(x)={+1,1,x0x0(2)

感知机模型的假设空间是定义在特征空间中的所有线性分类模型(liner classification model)或线性分类器(liner classifier),即函数集:
{ f ∣ f ( x ) = w ⋅ x + b {f|f(x)=w·x+b} ff(x)=wx+b}
感知机有如下几何解释:线性方程

(3) w ⋅ x + b = 0 w·x+b=0\tag3 wx+b=0(3)

对于特征向量中的一个超平面S,其中w是超平面的法向量,b是超平面的截距。这个超平面将特征空间划分为两部分。位于两部分的点(特征向量)分别分为正、负两类。因此,超平面S称为分离超平面(separating hyperplane)。如图所示:

感知机学习,由训练数据集(实例的特征向量及类别)

(4) T = ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) T={(x_1,y_1),(x_2,y_2),...,(x_n,y_n)}\tag4 T=(x1,y1),(x2,y2),...,(xn,yn)(4)

其中, x i x_i xi ∈ X \in X X, y i y_i yi ∈ Y \in Y Y={+1,-1}, i = 1 , 2 , 3 , ⋯   , N i=1,2,3,\cdots,N i=1,2,3,,N,求得感知机模型(公式1)。

2.感知机学习策略

2.1数据集的可分性

(1)数据集的可分性的定义:

(5) T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯   , ( x n , y n ) } T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)\} \tag5 T={(x1,y1),(x2,y2),,(xn,yn)}(5)

其中, x i x_i xi ∈ X \in X X, y i y_i yi ∈ Y \in Y Y={+1,-1}, i = 1 , 2 , 3 , ⋯   , N i=1,2,3,\cdots,N i=1,2,3,,N,如果存在某个超平面S

(6) w ⋅ x + b = 0 w·x+b=0\tag6 wx+b=0(6)

能够将数据集的正实例点和负实例点完全正确地划分到超平面的两侧,即对所有的 y i = + 1 y_i=+1 yi=+1实例 i i i .有 w ⋅ x + b > 0 w·x +b>0 wx+b>0 对所有 y i = − 1 y_i=-1 yi=1 的实例 i i i,有 w ⋅ x + b > 0 w·x +b>0 wx+b>0数据集T为线性可分数据集(linearly separable data set); 否则,称数据集T线性不可分。

2.2感知机学习策略

假设训练数据集是线性可分的,感知机学习的目标是求得一个能够将训练集正实例点和负实例点完全正确分开的分离超平面。为了找出这样的超平面,即确定感知机模型参数 w w w, b b b, 需要确定一个学习策略,即定义(经验)损失函数并将损失函数极小化。
损失函数的一个自然选择是误分类点的总数.但是,这样的损失函数不是参 w w w. b b b 的连续可导函数,不易优化损失函数的另一个选择是误分类点到超平面S的总距离,这是感知机所采用的,为此,首先写出输入空间 R n R^n Rn 中任一点与到超 x 0 x_0 x0平面S的距离:

在这里插入图片描述在这里插入图片描述

显然,损失函数L ( w , b ) (w,b) (w,b)是非负的如果没有误分类点,损失函数值是0。而且,误分类点越少,误分类点离超平面越远,损失函数值就越小。一个特定的样本点的损失函数:在误分类时是参数 w , b w,b w,b的线性函数,在正确分类时是 0. 因此, 给定训练数据集 T. 损失函数L ( w . b ) (w.b) (w.b) w . b w.b w.b 的连续可导函数。
感知机学习的策略是在假设空间中选取使损失函数式最小的模型参数 w , b w,b w,b即感知机模型。

3.感知学习算法

感知机学习问题转化为求解损失函数式的最优化问题,最优化的方法是随机梯度下降法。感知机学习的具体算法,包括原始形式和对偶形式。

3.1感知学习算法的原始形式

在这里插入图片描述

- 感知机学习算法是误分类驱动的,具体采用随机梯度下降(stochastic gradient descent)。首先,任意选取一个超平面,然后用梯度下降法不断地极小化目标函数(2.5)。极小化过程中不是一次使M中所有误分类点的梯度下降,而是一次随机选取一个误分类点使其梯度下降。

在这里插入图片描述
在这里插入图片描述

3.2感知机学习算法的对偶形式

现在考虑感知机学习算法的对偶形式。感知机学习算法的原始形式和对偶形式与支持向量机学习算法的原始形式和对偶形式相对应。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.感知机总结:

- 1.感知机模型是一种线性分类模型,属于判别模型
- 2.感知机学习策略是极小化损失函数L ( w , b ) (w,b) (w,b)。即确定w,b使得损失函数式最小。
- 3.感知机学习算法是基于随机梯度下降法的对损失函数的最优化算法,有原始形式和对偶形式。
- 4.当训练数据集线性可分时,感知机学习算法是收敛的。
- 5.当训练数据集线性可分时,感知机学习算法有无穷多个解,其解由于不同的初值或不同的迭代顺序而可能有所不同。
- 6.当训练数据集线性不可分时,感知机学习算法不收敛,迭代结果会发生震荡。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值