第一节 导论
一、问题导入
找到一条直线不分错任何点——>对所有分错的点到直线的距离求和,让这段求和的距离最小,就找到了所需的直线。
总结:
一条直线不分错一个点,这就是好的直线。
模型要尽可能找到好的直线。
如果没有好的直线,在差的直线中找到较好的直线。
判断直线多差的方式:分错的点到直线的距离求和。
二、感知机模型
·目标函数
fx=signw∙x+b
signx=+1 x≥0-1 x<0
w∙x+b 是一个n维空间中的超平面(分离超平面)S,其中w是超平面的法向量,b是超平面的截距,这个超平面将特征空间划分为两个部分,两个部分的正负两类。
其中,样本的每一个属性叫做一个特征,特征空间是一个n维的空间,其中包含样本的所有的属性组合。
三、感知机的学习策略
1、感知机是一个线性模型,只能划分线性可分的数据集。
2、函数间隔与几何间隔
空间中任意一点x0 到超平面S的距离:
(1)函数间隔
|w∙x0+b|
可以通过等比例缩小w和b从而减少间距,但是超平面并未改变,因此采用函数间距存在一定的缺陷。
(2)几何间隔(采用)
1ww∙x0+b w2=i=1nwi2
四、感知机的学习算法——原始形式
对于误差类数据而言,-yiw∙xi+b>0
误差类点xi到超平面S的距离为:-1wyiw∙xi+b
因此,所有误差类点到超平面S的总距离为:-1wxi∈Myiw∙xi+b
损失函数:Lw,b=-xi∈Myiw∙xi+b
算法过程:
(1)任选取超平面w0,b0
(2)采用梯度下降法极小值目标函数
Lw,b=-xi∈Myiw∙xi+b
∇wLw,b=-xi∈Myixi
∇bLw,b=-xi∈Myi
(3)更新w,b
w←w+ηyixi
b←b+ηyi