感知机
感知机的假想空间
在特征空间的所有线性分类器模型 , 在几何空间就是该特征空间的一系列超平面。 哪个模型比较好(对应的w,b),把空间中点准确分为正负两类的模型是好模型。
感知机的作用前提
感知机仅作用于线性可分数据集。线性可分数据集的特点是存在超平面将正负分开。
如何判定数据集线性可分?
答案是使用检查凸包(convex hull)是否相交。用quickhull算法来找到数据的凸包,sweepline算法判断凸包边缘是否有相交,两个步骤的复杂度都是O(nlogn)。 其中quickhull已经在软件包qhull(http://www.qhull.org/)实现了。
感知机的学习策略
找到一组组成的超平面,使正负例完全分开。
策略: 最小化损失函数
损失函数的定义:
损失函数使误分类点的总数时,这样的损失函数不是的连续可导函数,不易优化。
而一个超平面 是该平面的单位法向量。空间中一点到该平面的距离是: