Linear Classification Model

在二元线性分类模型中,我们希望通过一个线性函数来预测输入特征向量 x \mathbf{x} x 的类别标签 y y y,并且类别标签 y y y 是二元的,即 y ∈ { 0 , 1 } y \in \{0, 1\} y{0,1}。这个过程可以通过以下步骤详细解释:


1. 输入特征向量与类别标签

我们有一个输入特征向量 x ∈ R D \mathbf{x} \in \mathbb{R}^D xRD,其中 D D D 是特征的维数,表示我们有 D D D 个输入特征。我们还假设我们的类别标签 y y y 是二元的,取值范围为 { 0 , 1 } \{0, 1\} {0,1}。例如:

  • y = 0 y = 0 y=0:表示类别 0(例如,非垃圾邮件)。
  • y = 1 y = 1 y=1:表示类别 1(例如,垃圾邮件)。

2. 线性函数表示

我们使用一个线性函数来表示输入特征与输出类别之间的关系,这个函数的形式为:

f ( x ; w ) = w 0 + w 1 x 1 + w 2 x 2 + ⋯ + w D x D f(\mathbf{x}; \mathbf{w}) = w_0 + w_1 x_1 + w_2 x_2 + \dots + w_D x_D f(x;w)=w0+w1x1+w2x2++wDxD

这可以更简洁地写成矩阵形式:

f ( x ; w ) = w 0 + ∑ d = 1 D w d x d = w ⊤ ϕ ( x ) f(\mathbf{x}; \mathbf{w}) = w_0 + \sum_{d=1}^{D} w_d x_d = \mathbf{w}^\top \boldsymbol{\phi}(\mathbf{x}) f(x;w)=w0+d=1Dwdxd=wϕ(x)

其中:

  • w = [ w 0 , w 1 , … , w D ] ⊤ \mathbf{w} = [w_0, w_1, \dots, w_D]^\top w=[w0,w1,,wD] 是权重向量,表示我们对每个特征的影响进行加权。
  • ϕ ( x ) = [ 1 , x 1 , x 2 , … , x D ] ⊤ \boldsymbol{\phi}(\mathbf{x}) = [1, x_1, x_2, \dots, x_D]^\top ϕ(x)=[1,x1,x2,,xD] 是包含一个偏置项 1 1 1 的特征向量。

这个线性函数的核心思想是通过将每个特征 x d x_d xd 与相应的权重 w d w_d wd 相乘,再加上一个偏置项 w 0 w_0 w0,来决定最终的输出值。


3. 线性函数输出与分类

我们得到的 f ( x ; w ) f(\mathbf{x}; \mathbf{w}) f(x;w) 是一个连续值,可以大于或小于 0。为了将这个连续值转换为二元分类结果(即 y = 0 y = 0 y=0 y = 1 y = 1 y=1),我们使用 阈值(thresholding) 方法:

y ^ = { 1 如果  w ⊤ ϕ ( x ) ≥ 0 0 如果  w ⊤ ϕ ( x ) < 0 \hat{y} = \begin{cases} 1 & \text{如果 } \mathbf{w}^\top \boldsymbol{\phi}(\mathbf{x}) \geq 0 \\ 0 & \text{如果 } \mathbf{w}^\top \boldsymbol{\phi}(\mathbf{x}) < 0 \end{cases} y^={10如果 wϕ(x)0如果 wϕ(x)<0

即:

  • 如果 w ⊤ ϕ ( x ) ≥ 0 \mathbf{w}^\top \boldsymbol{\phi}(\mathbf{x}) \geq 0 wϕ(x)0,我们预测 y ^ = 1 \hat{y} = 1 y^=1(例如,垃圾邮件)。
  • 如果 w ⊤ ϕ ( x ) < 0 \mathbf{w}^\top \boldsymbol{\phi}(\mathbf{x}) < 0 wϕ(x)<0,我们预测 y ^ = 0 \hat{y} = 0 y^=0(例如,非垃圾邮件)。

通过这种方式,线性分类器会根据特征的加权和结果来决定所属的类别。


4. 解释参数 w \mathbf{w} w

  • 权重 w 1 , w 2 , … , w D w_1, w_2, \dots, w_D w1,w2,,wD:这些权重参数衡量每个特征对最终分类的贡献。例如,如果某个权重 w d w_d wd 很大,那么对应的特征 x d x_d xd 对预测结果有很大的影响。
  • 偏置 w 0 w_0 w0:这个参数控制分类边界的偏移。如果没有偏置项 w 0 w_0 w0,那么所有的决策边界都会通过原点,而加入偏置可以使决策边界更灵活。

5. 线性分类模型的几何解释

在线性分类器中,分类边界是一个超平面。在二维空间中,这个超平面就是一条直线,而在三维或更高维的情况下,它是一个平面或更高维的超平面。线性分类器根据特征向量 x \mathbf{x} x 相对于该超平面的位置进行分类:

  • 如果 x \mathbf{x} x 位于超平面的一侧,预测为 y = 1 y = 1 y=1
  • 如果 x \mathbf{x} x 位于另一侧,预测为 y = 0 y = 0 y=0

6. 应用场景与优点

这种线性分类模型广泛应用于许多分类问题,如垃圾邮件检测、疾病预测等。它的优点包括:

  • 计算效率高:线性分类器的计算简单,并且可以很容易扩展到高维特征空间。
  • 解释性强:线性模型可以直观地解释每个特征对分类结果的影响。

7. 线性分类器的几何视角

  1. 决策边界的定义:

    • 决策边界由 w T ϕ ( x ) = 0 w^T \phi(x) = 0 wTϕ(x)=0 定义。
    • 其中, w ~ \tilde{w} w~ 是去除偏置项 w 0 w_0 w0 的权重向量,且 w ~ \tilde{w} w~ 垂直于决策边界。
  2. 关于偏置项 w 0 w_0 w0 的影响:

    • w 0 = 0 w_0 = 0 w0=0 时,决策边界 w T ϕ ( x ) = 0 w^T \phi(x) = 0 wTϕ(x)=0 是一条通过原点并且与 w ~ \tilde{w} w~ 垂直的直线。
    • w 0 ≠ 0 w_0 \neq 0 w0=0 时,偏置项会将决策边界从原点平移开来。
  3. 原点到决策边界的最短距离:

    • p p p 是决策边界上距离原点最近的点,那么原点到决策边界的距离可以表示为:
      距离 = ∣ w 0 ∣ ∣ ∣ w ~ ∣ ∣ \text{距离} = \frac{|w_0|}{||\tilde{w}||} 距离=∣∣w~∣∣w0

如果一条直线的定义公式是 2 x + 3 y − 6 = 0 2x+3y-6=0 2x+3y6=0,那么这条直线的法向量是 [ 2 , 3 ] ⊤ [2,3]^\top [23], ∣ ∣ w ~ ∣ ∣ = ( 2 2 + 3 2 ) {||\tilde{w}||} = \sqrt{(2^2+3^2)} ∣∣w~∣∣=(22+32)

8. 可线性分离与不可线性分离

  1. 线性可分问题:

    • 如果我们可以找到一个超平面来基于类标签分离数据,则该问题是线性可分的。
    • 如图所示,超平面(如直线)可以将红色和蓝色点完全分开,这就是线性可分的例子。
  2. 线性不可分问题:

    • 如果没有一个超平面可以完全基于类标签分离数据,则该问题是线性不可分的。
    • 如图的右侧例子所示,某些红色和蓝色点无法通过一条直线完全分开。
  3. 导致不能完全分离的原因:

    • 模型过于简单,无法捕捉数据的复杂结构。
    • 输入特征过于简单,没有涵盖数据中的所有变化。
    • 输入特征中存在噪声。
    • 类标签中存在标注错误。

总结:

  • 决策边界由权重和偏置决定,法向量 w ~ \tilde{w} w~ 垂直于决策边界,偏置项 w 0 w_0 w0 控制决策边界的位置。
  • 线性可分问题可以通过超平面分离不同类别的数据,而线性不可分问题则需要更复杂的模型或特征来处理。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值