【统计学习方法】第2章 感知机(Perceptron)

感知机(perceptron)1957年由Rosenblatt提出,是神经网络与支持向量机的基础。是最早被设计并被实现的人工神经网络。感知机是一种非常特殊的神经网络,它在人工神经网络的发展史上有着非常重要的地位,尽管它的能力非常有限,主要用于线性分类。
感知机还包括多层感知机,简单的线性感知机用于线性分类器,多层感知机(含有隐层的网络)可用于非线性分类器。
感知机,是二类分类的线性分类模型,其输入为样本的特征向量,输出为样本的类别,取+1和‐1二值,即通过某样本的特征,就可以准确判断该样本属于哪一类。感知机能够解决的问题首先要求特征空间是线性可分的,再者是二类分类,即将样本分为{+1, ‐1}两类。下面分别从感知机学习的模型、策略以及算法三个方面来介绍。

1. 感知机模型

感知机模型如下:
f(x)= sign(w*x+b)
其中,x为输入向量,sign为符号函数,括号里面大于等于0,则其值为1,括号里面小于0,则其值为-1。上式称为感知机,w和b为感知机参数,w为权值(weight),b为偏置(bias)。求感知机模型即求模型参数w和b。感知机预测,即通过学习得到的感知机模型,对于新的输入实例给出其对应的输出类别1或者-1。
在感知机的定义中,线性方程w∙x + b = 0对应于问题空间中的一个超平面(二维空间中为直线)S,位于这个超平面两侧的样本分别被归为两类,例如下图,
这里写图片描述

感知机工作方式:
(1)、学习阶段:修改权值和偏置,根据”已知的样本”对权值和偏置不断修改—-有监督学习。当给定某个样本的输入/输出模式对时,感知机输出单元会产生一个实际输出向量,用期望输出(样本输出)与实际输出之差来修正网络连接权值和偏置。
(2)、工作阶段:计算单元变化,由响应函数给出新输入下的输出。

2感知机学习策略
假设训练数据集是线性可分的,感知机学习的目标就是求得一个能够将训练数据集中正负实例点完全分离的超平面,为了找到分类超平面,即确定感知机模型中的参数w和b,需要定义一个(经验)损失函数并通过将损失函数极小化来求w和b。
(1)、数据集线性可分性:在二维平面中,可以用一条直线将+1类和-1类完美分开,那么这个样本空间就是线性可分的。因此,感知机都基于一个前提,即问题空间线性可分;
(2)、定义损失函数,找到参数w和b,使得损失函数最小。
损失函数的一个选择是误分类点到分类超平面S的总距离。输入空间R中任一点x0到超平面S的距离为:
这里写图片描述
其中,||w||为w的L2范数。
其次,对于误分类点来说,当-yi (wxi + b)>0时,yi=-1,当-yi(wxi + b)<0时,yi=+1。所以对误分类点(xi, yi)满足:-yi (wxi +b) > 0,所以误分类点(xi, yi)到分类超平面S的距离是:
这里写图片描述

3. 感知机算法
感知机学习问题转化为求解损失函数式(1)的最优化问题,最优化的方法是随机梯度下降法。感知机学习算法是误分类驱动的,具体采用随机梯度下降法。首先,任意选取一个超平面w0,b0,然后用梯度下降法不断极小化目标函数式(1)。极小化的过程不是一次使M中所有误分类点的梯度下降,而是一次随机选取一个误分类点使其梯度下降。
损失函数L(w,b)的梯度是对w和b求偏导,即:
这里写图片描述
其中,(0<<=1)是学习率,即学习的步长。综上,感知机学习算法如下:
这里写图片描述
这种算法的基本思想是:当一个实例点被误分类,即位于分类超平面错误的一侧时,则调整w和b,使分类超平面向该误分类点的一侧移动,以减少该误分类点与超平面的距离,直到超平面越过该误分类点使其被正确分类为止。
这里写图片描述
以上是感知机学习算法的原始形式,下面介绍感知机学习算法的对偶形式,对偶形式的基本想法是,将w和b表示为实例xi和标记yi的线性组合形式,通过求解其系数而求得w和b。对误分类点(xi, yi)通过
这里写图片描述
所以,感知机学习算法的对偶形式如下:
这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值