《统计学习方法》学习笔记(3)--感知机

补点小常识:1958年,(李航老师《统计学习方法中》说到的是1957年)计算科学家Rosenblatt提出了由两层神经元组成的神经网络–“感知器”(Perceptron)–单层神经网络。感知器是当时首个可以学习的ANN。Rosenblatt现场演示了其学习识别简单图像的过程,在当时的社会引起了轰动。人们认为已经发现了智能的奥秘,许多学者和科研机构纷纷投入到神经网络的研究中。美国军方大力资助并认为神经网络比“原子弹工程”更重要。直到1969年,这个时期可以看作神经网络的第一次高潮。

推荐一篇文章,写的深入浅出、很浅显易懂。详见:神经网络浅讲:从神经元到深度学习

感知机

1.感知机(Perceptron),线性二分类模型,属于判别模型:
输入:各个sample的特征向量,输出:+1或者是-1

(1). 感知机的模型:
这里写图片描述
解释:线性方程wx+b=0对应于特征空间中的一个分离超平面(separating hyperplane),其中w为超平面的法向量,b是超平面的截距。该平面将数据点分为正,负两类
这里写图片描述
感知机的目标就是找到最好的线性超平面

(2). 感知机的策略:

感知器的前提认为数据集线性可分(即存在超平面将所有样本点分成两类)。
这里一个自然的选择是,用误分点的总数作为损失函数,但问题是这个损失函数和w,b没关系,不易优化 ,所以这里选择误分点到超平面的总距离作为损失函数,这样损失函数对于w,b是连续可导的,这样就可以使用梯度下降来找到最优解 。

这里写图片描述
损失函数是非负,如果没有误分点,为0,误分点越少,离超平面越近,损失函数值越小。

(3).感知机的算法:

随机梯度下降法,有原始形式和对偶形式两种。
这里写图片描述

SGD只是用一个样本点的损失函数的偏导值来修正w和b,效率会高。但问题是,这次修正只是减小对该样本点的损失值,而非所有样本点的整体的损失值,也就是所这次修正是对于该样本点的局部最优,而非对整个样本集的全局最优。所以随机梯度下降,会导致下降过程的震荡,但往往可以逼近全局最优 。

这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值