感知机模型
1. 模型概览
方法:感知机模型
适用问题:二分类
模型特点:分离超平面
模型类型:判别模型
学习策略:极小化误分点到超平面距离
损失函数:误分点到超平面距离
学习算法:随机梯度下降法
2. 模型介绍
感知机(perceptron)是处理二分类的线性分类模型。感知机旨在求出将训练数据进行线性划分的分离超平面,属于判别模型,所以,导入误分类的损失函数,利用梯度下降法极小化损失函数,求得感知机模型,感知机预测是用学习得到的感知机模型对新输入的数据进行分类。感知机在1957年由Rosenblatt提出,是神经网络和支持向量机的基础。
3. 模型定义
由输入空间到输出空间的如下函数:
称为感知机。其中w为权重,b为偏置,sign为符号函数:
所以,感知机输出是{+1,-1}.
几何解释:
线性方程
对应特征空间的一个超平面S,其中w为该平面的法向量,b为超平面的截距。这个超平面将特征空间分为两个部分,位于两部分的点分别被分为正负两类,因此,超平面S被称为分离超平面。如下图所示:
4. 感知机学习策略
首先解释一下什么是线性可分:对包含正负样例点的集合T,如果存在一个超平面S能够将所有正负样例点完全分在平面两侧,则称T为线性可分的,否则为线性不可分。感知机模型就是假设训练集合为线性可分的。
接下来我们定义损失函数,并将其最小化。感知机模型的损失函数为所有误分类点到超平面的距离和,这很好理解。不选择误分类点的个数是因为,它不是w,b的连续可导函数,不好优化。损失函数形式如下:
我们来推导一下:
空间任意点 x0 到超平面S的距离为:
这里 ∥w∥ 为w的二范数。
其次,对于误分类的数据 (xi,yi) 来说
因为 |yi|=1 ,对于误分点数据 (xi,yi) 有: