线性分类器的一个常见理解:只要输出 f ( x ; w ) = w ⊤ ϕ ( x ) f(x; w) = w^\top \phi(x) f(x;w)=w⊤ϕ(x) 大于 0,就可以预测 y = 1 y = 1 y=1(正类);如果小于 0,就预测 y = 0 y = 0 y=0(负类)。这种情况下,虽然 f ( x ; w ) f(x; w) f(x;w) 是无界的,但我们可以简单地通过大于或小于 0 的符号来决定分类结果。
确实,从分类的角度看,输出 f ( x ; w ) f(x; w) f(x;w) 的绝对值并不直接影响分类决策,只要判断其符号就可以得出类别:
- f ( x ; w ) > 0 f(x; w) > 0 f(x;w)>0,我们预测 y = 1 y = 1 y=1(正类)。
- f ( x ; w ) < 0 f(x; w) < 0 f(x;w)<0,我们预测 y = 0 y = 0 y=0(负类)。
但是,问题出现在概率解释上:
虽然我们可以用线性分类器的符号来做出分类决策,但如果我们希望进一步解释输出值为概率(即样本属于某一类别的概率),线性分类器的输出就不再那么理想了。因为:
-
无界的输出值:线性分类器的输出可能非常大或非常小,理论上输出可以趋近于 ∞ \infty ∞ 或 − ∞ -\infty −∞。但是概率要求在 [ 0 , 1 ] [0, 1] [0,1] 之间,而不是无界的。
-
概率的解释:我们希望模型能够输出样本属于某一类别的概率,而不仅仅是一个简单的类别标签(0 或 1)。概率可以告诉我们模型的不确定性,即模型对某个样本的分类有多大把握。例如:
- p ( y = 1 ∣ x ) = 0.9 p(y = 1 | x) = 0.9 p(y=1∣x)=0.9 表示模型有 90% 的信心认为 x x x 属于类别 1;
- p ( y = 1 ∣ x ) = 0.51 p(y = 1 | x) = 0.51 p(y=1∣x)=0.51 表示模型对 x x x 属于类别 1 仅有 51% 的信心,模型对分类不太确定。
为什么需要概率输出而不仅仅是分类决策:
-
不确定性:通过概率输出,我们不仅可以知道分类结果,还可以知道模型对这个结果的信心。当模型给出一个接近 0.5 的概率时,它意味着模型对分类结果没有太大把握。
-
多样性决策:有时我们不只是需要简单的二分类输出,还需要考虑后续的复杂决策过程。例如,在某些应用中,模型可能会根据概率值做进一步处理,而不是仅依赖于硬性决策(0 或 1)。
使用 Sigmoid 函数压缩无界输出为 [ 0 , 1 ] [0, 1] [0,1]:
为了将线性分类器的无界输出转化为概率输出,我们引入 Sigmoid 函数(逻辑函数),它将任意的线性输出压缩到 [ 0 , 1 ] [0, 1] [0,1] 的区间:
p ( y = 1 ∣ x ) = σ ( f ( x ; w ) ) = 1 1 + e − w ⊤ ϕ ( x ) p(y = 1 | x) = \sigma(f(x; w)) = \frac{1}{1 + e^{-w^\top \phi(x)}} p(y=1∣x)=σ(f(x;w))=1+e−w⊤ϕ(x)1
- 当 f ( x ; w ) → ∞ f(x; w) \to \infty f(x;w)→∞,Sigmoid 函数输出趋近于 1,这表示模型非常确定 y = 1 y = 1 y=1。
- 当 f ( x ; w ) → − ∞ f(x; w) \to -\infty f(x;w)→−∞,Sigmoid 函数输出趋近于 0,这表示模型非常确定 y = 0 y = 0 y=0。
- 当 f ( x ; w ) = 0 f(x; w) = 0 f(x;w)=0,Sigmoid 函数输出为 0.5,表示模型不确定 y = 0 y = 0 y=0 还是 y = 1 y = 1 y=1。
逻辑回归(Logistic Regression)是一个用于分类问题的模型,而不是回归问题的模型,尽管它的名称中有“回归”一词。这个名称源于它的历史背景,但它的实际用途是用于二分类问题。
1. 逻辑回归 = 线性权重 + 逻辑压缩函数
逻辑回归的模型可以表示为线性权重 w ⊤ ϕ ( x ) w^\top \phi(x) w⊤ϕ(x) 和一个非线性压缩函数(Sigmoid 函数 σ ( z ) \sigma(z) σ(z))的组合:
p ( y = 1 ∣ x ) = σ ( w ⊤ ϕ ( x ) ) p(y = 1 | x) = \sigma(w^\top \phi(x)) p(y=1∣x)=σ(w⊤ϕ(x))
其中, w ⊤ ϕ ( x ) w^\top \phi(x) w⊤ϕ(x) 是线性分类器的输出,而 σ ( z ) \sigma(z) σ(z) 是将这个输出转换为概率的函数,具体形式为:
σ ( z ) = 1 1 + e − z \sigma(z) = \frac{1}{1 + e^{-z}} σ(z)=1+e−z1
2. 建模类的概率:
- p ( y = 1 ∣ x ) = σ ( w ⊤ ϕ ( x ) ) p(y = 1 | x) = \sigma(w^\top \phi(x)) p(y=1∣x)=σ(w⊤ϕ(x)):表示样本 x x x 属于类别 y = 1 y = 1 y=1 的后验概率。
- p ( y = 0 ∣ x ) = 1 − σ ( w ⊤ ϕ ( x ) ) p(y = 0 | x) = 1 - \sigma(w^\top \phi(x)) p(y=0∣x)=1−σ(w⊤ϕ(x)):表示样本 x x x 属于类别 y = 0 y = 0 y=0 的后验概率。
因为 Sigmoid 函数将无界的线性输出 w ⊤ ϕ ( x ) w^\top \phi(x) w⊤ϕ(x) 压缩到 [ 0 , 1 ] [0, 1] [0,1],模型可以预测样本属于类别 y = 1 y = 1 y=1 和 y = 0 y = 0 y=0 的概率之和始终为 1。
3. 当 z = 0 z = 0 z=0 时, σ ( z ) = 0.5 \sigma(z) = 0.5 σ(z)=0.5,因此决策边界为 w ⊤ ϕ ( x ) = 0 w^\top \phi(x) = 0 w⊤ϕ(x)=0
- 决策边界是指模型对于一个样本是属于类别 1 还是类别 0 的决策规则。
- 当 w ⊤ ϕ ( x ) = 0 w^\top \phi(x) = 0 w⊤ϕ(x)=0 时,Sigmoid 函数输出 σ ( 0 ) = 0.5 \sigma(0) = 0.5 σ(0)=0.5,这意味着模型对于分类 y = 1 y = 1 y=1 和 y = 0 y = 0 y=0 持有同等信心,即分类是不确定的。
- 决策边界就定义在这个临界值 w ⊤ ϕ ( x ) = 0 w^\top \phi(x) = 0 w⊤ϕ(x)=0,在此时,模型的输出是 0.5 0.5 0.5。
4. 对于 D 维输入空间,决策边界是一个 D − 1 D-1 D−1 维的超平面
- 如果输入空间是 D 维的,即 x x x 是一个 D 维向量 ϕ ( x ) \phi(x) ϕ(x),那么 w ⊤ ϕ ( x ) = 0 w^\top \phi(x) = 0 w⊤ϕ(x)=0 就定义了一个超平面。
- 这个超平面将 D 维空间分割成两个区域:
- 在超平面一侧,模型预测 y = 1 y = 1 y=1。
- 在另一侧,模型预测 y = 0 y = 0 y=0。
对于 D 维输入,决策边界是 D − 1 D-1 D−1 维的超平面。这是因为一个超平面在 D 维空间中是少一维的结构。
5. 为什么逻辑回归是分类模型而不是回归模型?
尽管逻辑回归的名称中有“回归”,但它实际上是用于分类任务的。名称中的“回归”部分来源于以下两个方面:
-
线性部分:逻辑回归中的决策函数 w ⊤ ϕ ( x ) w^\top \phi(x) w⊤ϕ(x) 是一个线性回归的形式。它对输入特征 x x x 进行线性组合。
-
历史背景:逻辑回归这个名称起源于早期的统计学中,尽管它不是用于预测连续变量(这才是回归模型的特点),它使用了回归的框架来预测类别。
为什么称为分类模型:
-
分类目标:逻辑回归的目标是将样本分为两类,而不是预测连续值。它将线性回归的输出压缩到 [ 0 , 1 ] [0, 1] [0,1] 的范围,然后使用这个结果来建模类概率。
-
后验概率:通过 Sigmoid 函数,逻辑回归可以输出后验概率,表示样本属于某个类别的可能性。
权重向量 w w w 的大小(即 ∣ ∣ w ∣ ∣ ||w|| ∣∣w∣∣ 的范数)对分类器在决策边界附近的行为的影响
1. 逻辑回归模型中的权重向量 w w w 和 Sigmoid 函数
在逻辑回归中,输出类别的概率是通过线性组合 w ⊤ ϕ ( x ) w^\top \phi(x) w⊤ϕ(x) 和 Sigmoid 函数 σ ( z ) \sigma(z) σ(z) 计算得出的:
p ( y = 1 ∣ x ) = σ ( w ⊤ ϕ ( x ) ) = 1 1 + e − w ⊤ ϕ ( x ) p(y = 1 | x) = \sigma(w^\top \phi(x)) = \frac{1}{1 + e^{-w^\top \phi(x)}} p(y=1∣x)=σ(w⊤ϕ(x))=1+e−w⊤ϕ(x)1
- 当 w ⊤ ϕ ( x ) w^\top \phi(x) w⊤ϕ(x) 趋近于 0 时,Sigmoid 函数输出的概率会接近 0.5。这是因为当 σ ( 0 ) = 0.5 \sigma(0) = 0.5 σ(0)=0.5 时,模型对 y = 1 y = 1 y=1 和 y = 0 y = 0 y=0 的判断是不确定的。
- 当 w ⊤ ϕ ( x ) w^\top \phi(x) w⊤ϕ(x) 非常大时,Sigmoid 函数的输出接近 1;当 w ⊤ ϕ ( x ) w^\top \phi(x) w⊤ϕ(x) 非常小时,Sigmoid 函数的输出接近 0。
2. 权重向量的范数 ∣ ∣ w ∣ ∣ ||w|| ∣∣w∣∣ 的影响
-
小的 ∣ ∣ w ∣ ∣ ||w|| ∣∣w∣∣:
- 当 ∣ ∣ w ∣ ∣ ||w|| ∣∣w∣∣ 较小(即权重向量的大小较小)时,线性组合 w ⊤ ϕ ( x ) w^\top \phi(x) w⊤ϕ(x) 在特征空间中的变化较为缓慢。
- 在决策边界附近(即 w ⊤ ϕ ( x ) ≈ 0 w^\top \phi(x) \approx 0 w⊤ϕ(x)≈0),因为权重小,输入特征的变化不会导致 w ⊤ ϕ ( x ) w^\top \phi(x) w⊤ϕ(x) 产生太大的值。因此,在决策边界附近的大部分区域, w ⊤ ϕ ( x ) w^\top \phi(x) w⊤ϕ(x) 可能接近于 0,导致 Sigmoid 函数的输出也接近 0.5。
- 这种情况下,模型的输出概率在决策边界附近是不太确定的,即模型不太自信,很多概率会接近 0.5。
-
大的 ∣ ∣ w ∣ ∣ ||w|| ∣∣w∣∣:
- 当 ∣ ∣ w ∣ ∣ ||w|| ∣∣w∣∣ 较大时,线性组合 w ⊤ ϕ ( x ) w^\top \phi(x) w⊤ϕ(x) 在特征空间中的变化更为剧烈。
- 在这种情况下,即使输入特征 x x x 有较小的变化,权重向量的较大值也会导致 w ⊤ ϕ ( x ) w^\top \phi(x) w⊤ϕ(x) 快速远离 0。因此,Sigmoid 函数的输出更容易快速接近 1 或 0。
- 这意味着在决策边界附近,即使输入数据点稍微偏离决策边界,模型的输出也会迅速变为接近 1 或接近 0。此时,模型对分类的自信度更高,输出的概率接近于 1 或 0。
3. 为什么会出现这种现象?
这背后的原因是权重向量的大小决定了 Sigmoid 函数输入值的变化速度:
- 小的 ∣ ∣ w ∣ ∣ ||w|| ∣∣w∣∣ 导致 w ⊤ ϕ ( x ) w^\top \phi(x) w⊤ϕ(x) 在特征空间中的变化较小,因此 Sigmoid 函数的输出也变化较慢,使得决策边界附近的分类概率接近 0.5。
- 大的 ∣ ∣ w ∣ ∣ ||w|| ∣∣w∣∣ 则意味着 w ⊤ ϕ ( x ) w^\top \phi(x) w⊤ϕ(x) 对特征的变化更加敏感,因此 Sigmoid 函数的输出变化很快,从而更快地接近 0 或 1。
4. 可视化解释
- 对于小的 ∣ ∣ w ∣ ∣ ||w|| ∣∣w∣∣,决策边界附近的概率变化比较平缓,Sigmoid 函数的输出在较大区域内接近 0.5。
- 对于大的 ∣ ∣ w ∣ ∣ ||w|| ∣∣w∣∣,Sigmoid 函数的输出在决策边界附近变化非常快,导致模型对输入数据点的分类更加确定,即概率更接近 0 或 1。