2.1 感知机模型
1、感知机的定义:假如输入空间(特征空间)是,每一维表示一个特征,输出空间是,输入表示实例的特征向量,对应于输入空间(特征空间)的点,输出表示实例的类别。由输入空间到输出空间的函数:
( 是内积,是权值\权重向量,b是偏置)
成为感知机。它是一种线性分类器。
2、是特征空间的分离超平面,位于超平面不同的两部分的特征向量被分为正、负类。
2.2 感知机学习策略
1、数据集的线性可分性
给定一个数据集T,如果存在某个超平面能够将数据集的正实例点和负实例点完全正确地划分到超平面的两侧,则T为线性可分数据集。
样本集线性可分的充分必要条件是正实例点集所构成凸壳与负实例点所构成的凸壳互不相交。
2、感知机学习策略
1)损失函数的选择——误分类点到超平面S的总距离。
2)感知机学习的损失函数(=经验风险函数)为:
它是w,b的连续可导函数。
2.3 感知机学习算法
是基于随机梯度下降法的对损失函数的最优化算法
1、感知机学习算法的原始形式
1)算法
输入:训练数据集T,学习率。
输出:w,b;感知机模型 。
过程:①选取初值
②在训练集中选取数据
③如果
(更新的思想:如果+1误判为-1,,将w和xi的角度减小,即向量相加;如果-1误判为+1,将w和xi的角度增大,即向量相减)
④转至②,直至训练集中没有误分类点。
2)直观解释:当一个实例点被误分类,即位于分离超平面的错误的一侧时,则调整w,b的值,使分离超平面向误分类点的一侧移动,以减少该误分类点与超平面的距离,直至超平面越过该误分类点使其被正确分类。
3)感知机学习算法由于采用不同的初值或选取不同的误分类点,解存在无穷多个。
2、算法的收敛性
Novikoff定理:设训练集T是线性可分的,则
1)存在满足条件的超平面将训练数据集完全正确分开;且存在 ,对所有i=1,2,...,N
2)令,则感知机算法在训练数据集上的误分类次数k满足不等式
3、感知机学习算法的对偶形式
1)基本思路:将w和b表示为实例xi 和标记yi的线性组合的形式,通过求解其系数而求得w和b。
2)算法
输入:训练数据集T,学习率;
输出:a,b;感知机模型 ,其中
①
②在训练集中选取数据【可以预先把训练集中实例间的内积计算出来并以Gram矩阵存储】
③如果
④转至②直到没有误分类数据