1、感知机模型
1.1 感知机:感知机是二类分类的线性分类模型,输入为实例的特征向量,输出为实例的类别,取+1、-1二值,感知机将特征空间的输入实例,通过分离超平面分为正负两类,属于判别类型。感知机学习的目的是求出将训练数据集进行线性划分的分离超平面。
导入基于误分类的损失函数,利用梯度下降法对损失函数进行极小化,求得感知机模型。
感知机学习算法,分为原始形式与对偶形式;感知机预测是用学习得到的感知机模型对新的输入实例进行分类
1.2 生成模型与判别模型
(1)生成方法:由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(X|Y)作为预测的模型,即为生成模型 ,之所以称为生成方法,是因为模型表示了给定输入X产生输出Y的生成关系。经典的生成模型有朴素贝叶斯法和隐马尔可夫模型
(2)生成模型的特点
①数据量大 ②可以还原为联合概率分布P(X|Y) ③生成方法的学习收敛速度更快,即通过生成方法学习到的模型,样本能更快地收敛到真实模型 ④当存在隐变量时,仍可以用生成方法学习
(3)判别方法:是数据直接学习决策函数 f(x) 或者条件概率分布P(Y|X)作为预测的模型(判别模型)。判别方法关心的是给定的输入X,应该预测什么样的输出Y。经典的判别模型有K近邻法、感知机、决策树、逻辑斯谛回归模型、最大熵模型、支持向量机、提升方法和条件随机场等。
(4)判别模型的特点
①所需样本数量少 ②面对预测,往往学习的准确率更高 ③可以简化学习问题,因为可以对于数据进行各种程度的抽象、定义特征并使用特征 ④不能反映数据本身的特性
1.3 感知机模型
(1)定义
假设输入空间(特征空间)是X∈,输出空间是Y={+1、-1 }。输入x∈X表示实例的特征向量,对于输入空间的点,输出y∈Y表示实例的类别。由输入空间到输出空间的如下函数:
称为感知机。其中,w和b是感知机模型的参数,w∈叫作权值或权值向量,b属于R叫做偏置,w*x表示w和x的内积。sign是符号函数,即sign函数如果x>=0,取值为+1,如果x<0,取值为-1。
由于感知机是一种线性分类模型,属于判别模型。感知机模型的假设空间是定义在特征空间的所有线性分类模型或线性分类器,即函数集合{ f | f (x) = w*x+b}。
1.4 感知机的学习策略
(1) 数据集的线性可分性
给定一个数据集 T={(x1,y1),(x2,y2), ······(xn,yn)},其中xi∈X∈,yi属于Y属于{+1,-1},i = 1,2,···,n,如果存在某个超平面S:w*x+b = 0 ,能够将数据集的正负实例点分到超平面的两侧,则称数据集T为线性可分数据集;否则称数据集T线性不可分。
(2)感知机的学习策略(模型、策略、算法)
感知机学习的目的是为了求得一个超平面,为了找出这样的超平面,需要确定感知机模型参数w,b,需要一个学习策略,即定义(经验)损失函数并将损失函数极小化。感知机当中的损失函数不少采取误分类点的总数,因为它是离散的点,不是参数w,b连续可导函数,不易优化,可以选择误分类点导超平面S的总距离。
输入空间中的任一点x0到超平面S的距离: (类比于点到平面的距离),w∈叫作权值或权值向量。||w||是w的L2范数。
对于误分类点来说:-yi( w*xi+b )>0 成立。因为 w*xi+b > 0 为正类时 yi = -1 ;为负类时,yi=+1(看两点,先看输入的实例是正类还是负类,代表w*xi+b所属于的yi是+1或-1,再看是误分类点还是正确分类点)
因此误分类点xi到超平面S的距离是: 。
这样,假设超平面S的误分类点集合为M,那么所以误分类点到超平面的总距离为:
不考虑,就得到感知机的学习的损失函数。
感知机sign(w*x+b)学习的损失函数定义为:L(w,b)=,其中M为误分类点的集合,这个损失函数就是感知机学习的经验风险函数。
显然,损失函数L(w,b)是非负的。如果没有误分类点,损失函数值是0。而且,误分类点越少,误分类点离超平面越近,损失函数值就越小。一个特定的样本点的损失函数:在误分类点时是参数w,b的线性函数,在正确分类时是0。因此,给定训练数据集T,损失函数L(w,b)是w,b的连续可导函数。
总结:感知机学习的策略是在假设空间当中选择使得损失函数式最小的模型参数w,b,即感知机模型。
思考:这个损失函数如何分出去误分类点?
当训练数据集点(x0,y0)为正类,且是正确分类,则yi(w*xi+b) >0;
当训练数据集点为负类,且为正确分类,则yi(w*xi+b)>0;
当训练数据集点为正类/负类,且为错误分类,则yi(w*xi+b)<0。这样这个误分类点就被区分出来了,并可以进行损失函数的极小化等操作。