机器学习--感知器

感知器

这一篇我们要来说说感知器。感知器这个算法,可以说有点冷门,它太初级,不管是学术上还是工业界,没人用的。但是我要说,这个算法真的很重要。甚至可以说,它是很多算法的源起。前面所说的逻辑回到跟它有千丝万缕的联系,而且它是SVM和神经的基础。光着一句话告诉大家,真的就是三天三夜都说不完了。
为什么我纠结于这个算法呢?其实这个算法很好说的,它简单。把这个算法模型形式写出来, y y 等等怎样怎样x,它有什么什么损失函数,学习算法。但是这样说来,那套现有概率后建模的说法是不是就不对了?还是说,感知机就是在原有的欧式空间建模,并没有把样本映射到概率空间。那套 概率-建模的观点并不能适用于所有的模型?
这些问题的答案很重要,远比一个感知机算法重要,后面如果讲到神经网络,也有这个问题,怎么从概率角度解释SVM,解释神经网络?我暂时没有答案。待写。


好吧,不那么教条了,暂时不能把这类模型纳入那套概率解释下就先把感知器包括之后的SVM视为之欧式特征空间直接建模。
(大部分都是李航博士统计学习方法里面的内容,可以直接去看那本书,博主这里就当是自己复述一遍,加深印象了)
感知器的决策函数是由输入空间到输出空间如下的映射:

f(x)=sign(wTx) f ( x ) = s i g n ( w T x )

注意我写的 x x 里面已经包括偏置项。
sign是所谓的符号函数,形式如下:
好吧我还真不知道怎么打那种大括号,口述一下,就是 x x 大于等于0的时候f(x)等于+1,x 0 小 于 0 的 时 候 f(x)$等于-1。
这样讲,也可以说逻辑回归是吧 特征映射到概率空间。感知机是 把特征映射到了{-1,1}空间。
一般来说呢,感知机模型都是从几何角度去解释,这不就相当于在特征空间里划一条线,线这边是-1,线那边是+1.。所以这里也可以看到,感知机是假设数据是线性可分的,所谓线性可分就是说确确实实可以存在这样是一条线,更专业点说是超平面把数据集分开的。换言之,感知机这种模型只能处理线性可分问题。这么简单的模型,还要啥自行车!

学习策略

那问题来了,怎么调整模型参数使之可以成为那样的一个超平面呢?机器学习是基本思路,设定一个损失函数,最小化之。
什么样的损失函数可以达到这个目标呢?
首先我们定义,空间内一点到超平面的距离是:

1||w|||w.x0+b| 1 | | w | | | w . x 0 + b |

假如我们初始化了模型参数,现在有了这样的一个超平面,肯定有被误分类的对不对,我们初始化的水平没那么高。对于一个误分类点 (xi,yi) ( x i , y i ) 来说:、
yi(w.xi+b)>0 − y i ( w . x i + b ) > 0

因此误分类点到超平面的距离是
1||w||yi|w.xi+b| − 1 | | w | | y i | w . x i + b |

假设目前为止总共有m个误分类点,那么所有误分类点到超平面的距离是:
1||w||xiMyi|w.xi+b| − 1 | | w | | ∑ x i ∈ M y i | w . x i + b |

可以看到这个损失函数是非负的,它的最小值是0,那它什么什么取到0呢?就是,没有误分类点的时候。

学习算法

所以我们现在面对是一个最优化问题。采用梯度下降算法。
损失函数:

xiMyi|w.xi+b| − ∑ x i ∈ M y i | w . x i + b |

我们把前边的系数拿掉了,再讲到SVM的时候详细说。
那就求导呗,先对 w w 求导:
wL(w,b)=xiMyixi

还有对 b b 求导:
bL(w,b)=xiMyi

那么现在出现误分类点了,就按照如下规则更新权重:
ww+ηyixi w ← w + η y i x i

bb+ηyi b ← b + η y i

η η 是步长,大家都懂的

对偶问题

以上称为感知机学习算法的原始形式,它还有个对偶形式,大家要问了,为什么还要想出来一个对偶形式呢?往下看就知道了。
为了不失一般性,我们假设初始化的时候w,b都是0,上面也说了,出现误分类点就按照上面的方式更新参数。假设有n个误分类点就是修改了n次,我们一次性的给出:

w=i=1Nαiyixi w = ∑ i = 1 N α i y i x i

b=i=1Nαiyi b = ∑ i = 1 N α i y i

ai=niη a i = n i η ,这里的 ni n i 要注意,这是表示地 i i 个样本被使用了多少次!
现在感知器的模型编程了:
f(x)=sign(j=1Nαiyjxj.x+b)

如果有 yiNj=1αiyjxj.x+b<=0 y i ∑ j = 1 N α i y j x j . x + b <= 0 ,就是所出现了误分类点,那么:
αiαi+η α i ← α i + η

bb+ηyi b ← b + η y i

为了方便,可以提前把训练集实例间 的内积计算好存储起来,这就是所谓的Gram 矩阵,用的时候索引就行了,这样快啊,对偶形式的意义就在这

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值