在二元线性分类模型中,我们希望通过一个线性函数来预测输入特征向量 x \mathbf{x} x 的类别标签 y y y,并且类别标签 y y y 是二元的,即 y ∈ { 0 , 1 } y \in \{0, 1\} y∈{0,1}。这个过程可以通过以下步骤详细解释:
1. 输入特征向量与类别标签
我们有一个输入特征向量 x ∈ R D \mathbf{x} \in \mathbb{R}^D x∈RD,其中 D D D 是特征的维数,表示我们有 D D D 个输入特征。我们还假设我们的类别标签 y y y 是二元的,取值范围为 { 0 , 1 } \{0, 1\} {0,1}。例如:
- y = 0 y = 0 y=0:表示类别 0(例如,非垃圾邮件)。
- y = 1 y = 1 y=1:表示类别 1(例如,垃圾邮件)。
2. 线性函数表示
我们使用一个线性函数来表示输入特征与输出类别之间的关系,这个函数的形式为:
f ( x ; w ) = w 0 + w 1 x 1 + w 2 x 2 + ⋯ + w D x D f(\mathbf{x}; \mathbf{w}) = w_0 + w_1 x_1 + w_2 x_2 + \dots + w_D x_D f(x;w)=w0+w1x1+w2x2+⋯+wDxD
这可以更简洁地写成矩阵形式:
f ( x ; w ) = w 0 + ∑ d = 1 D w d x d = w ⊤ ϕ ( x ) f(\mathbf{x}; \mathbf{w}) = w_0 + \sum_{d=1}^{D} w_d x_d = \mathbf{w}^\top \boldsymbol{\phi}(\mathbf{x}) f(x;w)=w0+d=1∑Dwdxd=w⊤ϕ(x)
其中:
- w = [ w 0 , w 1 , … , w D ] ⊤ \mathbf{w} = [w_0, w_1, \dots, w_D]^\top w=[w0,w1,…,wD]⊤ 是权重向量,表示我们对每个特征的影响进行加权。
- ϕ ( x ) = [ 1 , x 1 , x 2 , … , x D ] ⊤ \boldsymbol{\phi}(\mathbf{x}) = [1, x_1, x_2, \dots, x_D]^\top ϕ(x)=[1,x1,x2,…,xD]⊤ 是包含一个偏置项 1 1 1 的特征向量。
这个线性函数的核心思想是通过将每个特征 x d x_d xd 与相应的权重 w d w_d wd 相乘,再加上一个偏置项 w 0 w_0 w0,来决定最终的输出值。
3. 线性函数输出与分类
我们得到的 f ( x ; w ) f(\mathbf{x}; \mathbf{w}) f(x;w) 是一个连续值,可以大于或小于 0。为了将这个连续值转换为二元分类结果(即 y = 0 y = 0 y=0 或 y = 1 y = 1 y=1),我们使用 阈值(thresholding) 方法:
y ^ = { 1 如果 w ⊤ ϕ ( x ) ≥ 0 0 如果 w ⊤ ϕ ( x ) < 0 \hat{y} = \begin{cases} 1 & \text{如果 } \mathbf{w}^\top \boldsymbol{\phi}(\mathbf{x}) \geq 0 \\ 0 & \text{如果 } \mathbf{w}^\top \boldsymbol{\phi}(\mathbf{x}) < 0 \end{cases} y^={10如果 w⊤ϕ(x)≥0如果 w⊤ϕ(x)<0
即:
- 如果 w ⊤ ϕ ( x ) ≥ 0 \mathbf{w}^\top \boldsymbol{\phi}(\mathbf{x}) \geq 0 w⊤ϕ(x)≥0,我们预测 y ^ = 1 \hat{y} = 1 y^=1(例如,垃圾邮件)。
- 如果 w ⊤ ϕ ( x ) < 0 \mathbf{w}^\top \boldsymbol{\phi}(\mathbf{x}) < 0 w⊤ϕ(x)<0,我们预测 y ^ = 0 \hat{y} = 0 y^=0(例如,非垃圾邮件)。
通过这种方式,线性分类器会根据特征的加权和结果来决定所属的类别。
4. 解释参数 w \mathbf{w} w
- 权重 w 1 , w 2 , … , w D w_1, w_2, \dots, w_D w1,w2,…,wD:这些权重参数衡量每个特征对最终分类的贡献。例如,如果某个权重 w d w_d wd 很大,那么对应的特征 x d x_d xd 对预测结果有很大的影响。
- 偏置 w 0 w_0 w0:这个参数控制分类边界的偏移。如果没有偏置项 w 0 w_0 w0,那么所有的决策边界都会通过原点,而加入偏置可以使决策边界更灵活。
5. 线性分类模型的几何解释
在线性分类器中,分类边界是一个超平面。在二维空间中,这个超平面就是一条直线,而在三维或更高维的情况下,它是一个平面或更高维的超平面。线性分类器根据特征向量 x \mathbf{x} x 相对于该超平面的位置进行分类:
- 如果 x \mathbf{x} x 位于超平面的一侧,预测为 y = 1 y = 1 y=1;
- 如果 x \mathbf{x} x 位于另一侧,预测为 y = 0 y = 0 y=0。
6. 应用场景与优点
这种线性分类模型广泛应用于许多分类问题,如垃圾邮件检测、疾病预测等。它的优点包括:
- 计算效率高:线性分类器的计算简单,并且可以很容易扩展到高维特征空间。
- 解释性强:线性模型可以直观地解释每个特征对分类结果的影响。
7. 线性分类器的几何视角
-
决策边界的定义:
- 决策边界由 w T ϕ ( x ) = 0 w^T \phi(x) = 0 wTϕ(x)=0 定义。
- 其中, w ~ \tilde{w} w~ 是去除偏置项 w 0 w_0 w0 的权重向量,且 w ~ \tilde{w} w~ 垂直于决策边界。
-
关于偏置项 w 0 w_0 w0 的影响:
- 当 w 0 = 0 w_0 = 0 w0=0 时,决策边界 w T ϕ ( x ) = 0 w^T \phi(x) = 0 wTϕ(x)=0 是一条通过原点并且与 w ~ \tilde{w} w~ 垂直的直线。
- 当 w 0 ≠ 0 w_0 \neq 0 w0=0 时,偏置项会将决策边界从原点平移开来。
-
原点到决策边界的最短距离:
- 若
p
p
p 是决策边界上距离原点最近的点,那么原点到决策边界的距离可以表示为:
距离 = ∣ w 0 ∣ ∣ ∣ w ~ ∣ ∣ \text{距离} = \frac{|w_0|}{||\tilde{w}||} 距离=∣∣w~∣∣∣w0∣
- 若
p
p
p 是决策边界上距离原点最近的点,那么原点到决策边界的距离可以表示为:
如果一条直线的定义公式是 2 x + 3 y − 6 = 0 2x+3y-6=0 2x+3y−6=0,那么这条直线的法向量是 [ 2 , 3 ] ⊤ [2,3]^\top [2,3]⊤, ∣ ∣ w ~ ∣ ∣ = ( 2 2 + 3 2 ) {||\tilde{w}||} = \sqrt{(2^2+3^2)} ∣∣w~∣∣=(22+32)
8. 可线性分离与不可线性分离
-
线性可分问题:
- 如果我们可以找到一个超平面来基于类标签分离数据,则该问题是线性可分的。
- 如图所示,超平面(如直线)可以将红色和蓝色点完全分开,这就是线性可分的例子。
-
线性不可分问题:
- 如果没有一个超平面可以完全基于类标签分离数据,则该问题是线性不可分的。
- 如图的右侧例子所示,某些红色和蓝色点无法通过一条直线完全分开。
-
导致不能完全分离的原因:
- 模型过于简单,无法捕捉数据的复杂结构。
- 输入特征过于简单,没有涵盖数据中的所有变化。
- 输入特征中存在噪声。
- 类标签中存在标注错误。
总结:
- 决策边界由权重和偏置决定,法向量 w ~ \tilde{w} w~ 垂直于决策边界,偏置项 w 0 w_0 w0 控制决策边界的位置。
- 线性可分问题可以通过超平面分离不同类别的数据,而线性不可分问题则需要更复杂的模型或特征来处理。