目录
一、感知机模型
1.1定义(感知机)
假设输入空间(特征空间)是,输出空间是
。输入
表示实例的特征向量,对应于输入空间(特征空间)的点;输出
表示实例的类别。由输入空间到输出空间的如下函数
称为感知机。
w、b:感知机模型参数
:权值或权值向量
:偏置
感知机是一种线性分类模型,属于判别模型。
1.2几何解释
线性方程对应于特征空间
中的一个超平面
,其中
是超平面的法向量,
是超平面的截距。这个超平面将特征空间划分成两个部分。位于两部分的点(特征向量)划分为正、负两类。因此,超平面S称为分离超平面。
二、损失函数
误分类点到超平面S的总距离。
输入空间中任一点
到超平面S的距离:
这里是w的
范数。
对于误分类的数据来说,
成立,所以误分类点
到超平面S的距离是
,
则所有误分类点到超平面S的总距离为
不考虑,就可以得到感知机学习的损失函数。
即
其中,M是误分类点的集合。
感知机学习的策略是在假设空间中选取使损失函数最小的模型参数w,b,即感知机模型。
三、学习算法
3.1感知机学习算法的原始形式
输入:训练数据集,其中
,
;学习率
输出:w,b;
感知机模型:
(1)选取初值
(2)在训练集中选取数据
(3)如果(被误分类)
(4)转至(2),直到训练集中没有误分类的点
3.2感知机学习算法的对偶形式
对偶形式的基本思想:将w和b表示为实例和标记
的线性组合的形式,通过求解其系数而求得w和b。对于感知机来说,简单来说,就是用α去记录每个
要加多少次,最后一次加上去就好了。
我们假设样本点在更新过程中使用了
次。因此从原始的学习过程中可以得到,最后学习到的w和b可以分门表示为:
(1)
(2)
考虑的含义:如果
的值越大,意味着这个样本点经常被误分类。什么样的点容易被误分类,很明显是离超平面很近的点。超平面稍微移动一点,这个点就由正变负,或者由负变正。
输入:训练数据集,其中
,
;学习率
输出:
感知机模型:
其中
(1)
(2)在训练集中选取数据
(3)如果(被误分类)
(4)转至(2),直到训练集中没有误分类的点
对偶形式中的训练实例仅以内积的形式出现,为了方便可以预先将训练集中实例间的内积计算出来并以矩阵的形式存储,这个矩阵就是所谓的Gram矩阵。