感知机
—感知机是一个线性的二分类模型,其输入为实例的特征向量,输出为实例类别,取+1,-1.其旨在求出将训练数据进行现线性划分的分离超平面,当然,按照三要素原则,在此处引入损失函数,并通过梯度下降法对损失函数进行极小化以求得感知机模型。
感知机模型
w,b为感知机模型参数,w叫做权值或权值向量,b叫做偏置,w.x表示w和x的内积。其几何解释如下:
对应于特征空间中的一个超平面S,其中w是超平面的法向量,b是超平面的截距。该超平面将特征空间划分为两个部分,即正、负两类,其效果如图:
感知机学习策略
显然,对于机器学习的策略制定,我们都需要考虑一个合适的衡量损失的指标,一般来讲,这个指标都是损失函数,此处也是如此。对于分类问题,我们首先可以考虑用误判数来构建损失函数,但这样获得的函数对于w和b来讲是不可连续的,要达到损失函数极小化目的显然不易。但是从点到超平面的距离这个度量出发的话就合适多了。
任一点到超平面的距离。
其次,对于误分类的数据来说:
因为当
当
所以,误分类点到超平面距离可以写为:
误分类点到超平面总距离可以写为:
不考虑||w||,就能够得到感知机学习的损失函数。
M为误分类点的集合,L(w,b)就是感知机学习的经验风险函数。
显然,这个经验损失函数是非负的,当误分类点个数为0时,损失值也为0,且误分类点越少,误分类点总距离离超平面就越近。
感知机学习算法
根据惯例,我们对获得的经验风险函数进行最优化处理,由于之前考虑到风险函数对w与b连续可导,所以求取风险函数最小值时可以采取梯度下降的方法。
其中是步长,又称学习率,如此迭代下去,经验风险最后能够降低至0。
算法流程(原始形式)
总结来讲,此算法就是不断地减少误分类集合中的点,并一一将其归类于正确分类中,直至全部正确分类。
对偶形式