概述
感知机是二分类的线性分类模型,属于判别模型。输入为特征向量,输出为{+1, -1}。
仅能用于线性可分数据集,模型为分离超平面。
采用梯度下降法对损失函数进行极小化。
分为原始形式和对偶形式。
模型
感知机定义:假设特征空间为 X ⊆ R n \mathcal{X} \subseteq \mathbf{R}^n X⊆Rn,输出空间为 Y = { + 1 , − 1 } \mathcal{Y}=\{+1,-1\} Y={
+1,−1}。输入 x ∈ X \bm{x}\in\mathcal{X} x∈X 表示实例的特征向量,对应于特征空间中的点,输出 y ∈ Y y\in\mathcal{Y} y∈Y 表示实例的类别。由特征空间到输出空间的如下函数
f ( x ) = s i g n ( w ⋅ x + b ) f(\bm{x}) = {\rm sign}(\bm{w}\cdot\bm{x} + b) f(x)=sign(w⋅x+b)
称为感知机。其中, w \bm{w} w 和 b b b 为感知机的模型参数, w ∈ R n \bm{w}\in\mathbf{R}^n w∈Rn 为权值向量(weight), b ∈ R b\in \mathbf{R} b∈R 为偏置(bias), w ⋅ x \bm{w}\cdot\bm{x} w⋅x为向量内积, s i g n {\rm sign} sign是符号函数:
s i g n ( x ) = { + 1 , x ≥ 0 − 1 , x < 0 {\rm sign}(x) = \begin{cases} +1, & x \geq 0 \\\\ -1, & x < 0 \end{cases} sign(x)=⎩⎪⎨⎪⎧+1,−1,x≥0x<0
感知机的假设空间是定义在特征空间中的所有线性分类模型,即函数集合 { f ∣ f ( x ) = w ⋅ x + b } \{f|f(\bm{x})=\bm{w}\cdot\bm{x} + b\} { f∣f(x)=w⋅x+b}。感知机学习即选择参数 w \bm{w} w 和 b b b,使得损失最小。
几何解释
线性方程 w ⋅ x + b = 0 \bm{w}\cdot\bm{x} + b = 0 w⋅x+b=0 对应于特征空间 R n \mathbf{R}^n Rn 中的一个超平面,其中 w \bm{w} w 是超平面的法向量, b b b 是超平面的截距。该超平面将特征空间分为两部分,位于两部分的特征向量分别为正类和负类。
策略
数据集必须是线性可分的,即必须存在某个超平面 w ⋅ x + b = 0 \bm{w}\cdot\bm{x}+b=0 w⋅x+b=0,使得数据集的正实例点和负实例点完全正确地划分到超平面的两侧(即对所有正例,有 w ⋅ x + b > 0 \bm{w}\cdot\bm{x}+b>0 w⋅x+b>0;对所有负例,有 w ⋅ x + b < 0 \bm{w}\cdot\bm{x}+b<0 w⋅x+b<0)。
损失函数定义为误分类点到超平面的总距离。记向量 w \bm{w} w 的 L 2 L_2 L2 范数为 ∥ w ∥ \|\bm{w}\| ∥w∥,则空间中任一点 x i \bm{x}_i xi 到超平面的距离为
1 ∥ w ∥ ∣ w ⋅ x i + b ∣ \frac{1}{\|\bm{w}\|}|\bm{w}\cdot\bm{x}_i+b| ∥w∥1∣w