Chap2:感知机
1. 感知机模型
- 感知机 是二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1和-1二值。感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面,属于判别模型。
- 感知机模型的假设空间是定义在特征空间中的所有线性分类模型(linear classification medel)或线性分类器(linear classifier),即函数集合 { f ∣ f ( x ) = w ⋅ x + b } \{f|f(x) = w·x+b\} { f∣f(x)=w⋅x+b}
- 分离超平面(separating hyperplane):线性方程 w ⋅ x + b = 0 w·x+b=0 w⋅x+b=0对应于特征空间 R n R^n Rn中的一个超平面,其中 w w w是超平面的法向量, b b b是超平面的截距,这个特征空间因此被划分为两个部分,两部分的点分别分为正负两类,则超平面S则被称为分离超平面。
2. 感知机学习策略
- 线性可分数据集(linearly separable dataset): 即存在某个超平面能够将数据集二点正实例点和复实例点完全正确的划分到超平面的两侧,即对所有 y i = + 1 y_i=+1 yi=+1的实例 i i i,有 w ⋅ x i + b > 0 w·x_i+b>0 w⋅xi+b>0,对于所有 y i = − 1 y_i=-1 yi=−1的实例 i i i,有 w ⋅ x i + b < 0 w·x_i+b<0 w⋅xi+b<0。
==> 确定学习策略,即定义(经验)损失函数并将损失函数极小化
2.1 损失函数
损失函数的一个自然选择是误分类点的综述,但这样的损失函数不是参数 w , b w,b w,b的连续可导函数不易优化。故感知机选择误分类点到超平面S的总距离,作为其损失函数。
输入空间 R n R^n Rn中任一点 x 0 x_0 x0到超平面 S S S的距离( ∣ ∣ w ∣ ∣ ||w|| ∣∣w∣∣是 w w w的 L 2 L_2 L2范数,2.2中补充):
1 ∣ ∣ w ∣ ∣ ∣ w ⋅ x 0 + b ∣ \frac{1}{||w||}|w·x_0+b| ∣∣w∣∣1∣w⋅x0+b∣
当 w ⋅ x i + b > 0 w·x_i+b>0 w⋅xi+b>0时, y i = + 1 y_i=+1 yi=+1; w ⋅ x i + b < 0 w·x_i+b<0 w⋅xi+b<0时, y i = − 1 y_i=-1 yi=−1的实例 i i i,所以呢~距离应该表示为: − 1 ∣ ∣ w ∣ ∣ y i ∣ w ⋅