第2章 感知机
感知机是二类分类的线性分类模型,属于判别模型。
输入:实例的特征向量 输出:实例的类别 取+1、-1两个值,常表示为{-1,+1}
感知机学习的目标在于求出将训练数据进行线性划分(将训练集正实例点和负实例点完全正确分开)的分离超平面。
1.感知机模型
导入基于误分类的损失函数➡利用梯度下降法对损失函数进行极小化➡得到感知机模型
感知机模型的假设空间是定义在特征空间中的所有线性分类模型或线性分类器,也就是函数集合{f|f(x)=w•x+b}
感知机的几何说明:
w•x+b=0
对应于N维特征空间R^n的一个超平面S,其中w是超平面的法向量,b是超平面的截距。
其中超平面将特征空间划分为两个部分,位于这两部分的特征向量分别被分为正、负两类。所以也将超平面S称为分离超平面
2.感知机学习策略
数据集的线性可分性:
给定一个数据集T={(x1,y1),(x2,y2),(x3,y3),....,(xn,yn)}
能够将数据集的正实例点与负实例点完全正确地划分到超平面的两侧,即对所有yi=+1,有w•xi+b>0,对所有yi=-1的实例i,有w•xi+b<0,则称数据集T为线性可分数据集,否则称数据集T线性不可分
感知机学习策略:定义(经验)损失函数并将损失函数极小化
输入空间N维特征空间R^n中任一点x0到超平面S的距离:
其中||w||是范数,误分类点x1到超平面S的距离为
误分类点越少,误分类点离超平面就越近,损失函数值就越小。
3.感知机学习算法
感知机学习问题转化为求解损失函数的最优化问题中,最优化的方法是梯度下降法。
下面简要说一下梯度下降法:
感知机学习算法是误分类驱动的。
感知机学习算法由于采用不同的初值或选取不同的误分类点,解可以不同,也就是可以有不同的超平面。
文章中为个人学习时的一些简要笔记,如果想要更好的了解统计学习方法,可以参考b站up主“简博士”,这个也是我个人在看的。