Logistic Regression

线性分类器的一个常见理解:只要输出 f ( x ; w ) = w ⊤ ϕ ( x ) f(x; w) = w^\top \phi(x) f(x;w)=wϕ(x) 大于 0,就可以预测 y = 1 y = 1 y=1(正类);如果小于 0,就预测 y = 0 y = 0 y=0(负类)。这种情况下,虽然 f ( x ; w ) f(x; w) f(x;w) 是无界的,但我们可以简单地通过大于或小于 0 的符号来决定分类结果。

确实,从分类的角度看,输出 f ( x ; w ) f(x; w) f(x;w) 的绝对值并不直接影响分类决策,只要判断其符号就可以得出类别:

  • f ( x ; w ) > 0 f(x; w) > 0 f(x;w)>0,我们预测 y = 1 y = 1 y=1(正类)。
  • f ( x ; w ) < 0 f(x; w) < 0 f(x;w)<0,我们预测 y = 0 y = 0 y=0(负类)。

但是,问题出现在概率解释上:

虽然我们可以用线性分类器的符号来做出分类决策,但如果我们希望进一步解释输出值为概率(即样本属于某一类别的概率),线性分类器的输出就不再那么理想了。因为:

  1. 无界的输出值:线性分类器的输出可能非常大或非常小,理论上输出可以趋近于 ∞ \infty − ∞ -\infty 。但是概率要求在 [ 0 , 1 ] [0, 1] [0,1] 之间,而不是无界的。

  2. 概率的解释:我们希望模型能够输出样本属于某一类别的概率,而不仅仅是一个简单的类别标签(0 或 1)。概率可以告诉我们模型的不确定性,即模型对某个样本的分类有多大把握。例如:

    • p ( y = 1 ∣ x ) = 0.9 p(y = 1 | x) = 0.9 p(y=1∣x)=0.9 表示模型有 90% 的信心认为 x x x 属于类别 1;
    • p ( y = 1 ∣ x ) = 0.51 p(y = 1 | x) = 0.51 p(y=1∣x)=0.51 表示模型对 x x x 属于类别 1 仅有 51% 的信心,模型对分类不太确定。

为什么需要概率输出而不仅仅是分类决策:

  1. 不确定性:通过概率输出,我们不仅可以知道分类结果,还可以知道模型对这个结果的信心。当模型给出一个接近 0.5 的概率时,它意味着模型对分类结果没有太大把握。

  2. 多样性决策:有时我们不只是需要简单的二分类输出,还需要考虑后续的复杂决策过程。例如,在某些应用中,模型可能会根据概率值做进一步处理,而不是仅依赖于硬性决策(0 或 1)。

使用 Sigmoid 函数压缩无界输出为 [ 0 , 1 ] [0, 1] [0,1]

为了将线性分类器的无界输出转化为概率输出,我们引入 Sigmoid 函数(逻辑函数),它将任意的线性输出压缩到 [ 0 , 1 ] [0, 1] [0,1] 的区间:

p ( y = 1 ∣ x ) = σ ( f ( x ; w ) ) = 1 1 + e − w ⊤ ϕ ( x ) p(y = 1 | x) = \sigma(f(x; w)) = \frac{1}{1 + e^{-w^\top \phi(x)}} p(y=1∣x)=σ(f(x;w))=1+ewϕ(x)1

  • f ( x ; w ) → ∞ f(x; w) \to \infty f(x;w),Sigmoid 函数输出趋近于 1,这表示模型非常确定 y = 1 y = 1 y=1
  • f ( x ; w ) → − ∞ f(x; w) \to -\infty f(x;w),Sigmoid 函数输出趋近于 0,这表示模型非常确定 y = 0 y = 0 y=0
  • f ( x ; w ) = 0 f(x; w) = 0 f(x;w)=0,Sigmoid 函数输出为 0.5,表示模型不确定 y = 0 y = 0 y=0 还是 y = 1 y = 1 y=1

逻辑回归(Logistic Regression)是一个用于分类问题的模型,而不是回归问题的模型,尽管它的名称中有“回归”一词。这个名称源于它的历史背景,但它的实际用途是用于二分类问题

1. 逻辑回归 = 线性权重 + 逻辑压缩函数

逻辑回归的模型可以表示为线性权重 w ⊤ ϕ ( x ) w^\top \phi(x) wϕ(x) 和一个非线性压缩函数(Sigmoid 函数 σ ( z ) \sigma(z) σ(z))的组合:

p ( y = 1 ∣ x ) = σ ( w ⊤ ϕ ( x ) ) p(y = 1 | x) = \sigma(w^\top \phi(x)) p(y=1∣x)=σ(wϕ(x))

其中, w ⊤ ϕ ( x ) w^\top \phi(x) wϕ(x) 是线性分类器的输出,而 σ ( z ) \sigma(z) σ(z) 是将这个输出转换为概率的函数,具体形式为:

σ ( z ) = 1 1 + e − z \sigma(z) = \frac{1}{1 + e^{-z}} σ(z)=1+ez1

2. 建模类的概率:

  • p ( y = 1 ∣ x ) = σ ( w ⊤ ϕ ( x ) ) p(y = 1 | x) = \sigma(w^\top \phi(x)) p(y=1∣x)=σ(wϕ(x)):表示样本 x x x 属于类别 y = 1 y = 1 y=1 的后验概率。
  • p ( y = 0 ∣ x ) = 1 − σ ( w ⊤ ϕ ( x ) ) p(y = 0 | x) = 1 - \sigma(w^\top \phi(x)) p(y=0∣x)=1σ(wϕ(x)):表示样本 x x x 属于类别 y = 0 y = 0 y=0 的后验概率。

因为 Sigmoid 函数将无界的线性输出 w ⊤ ϕ ( x ) w^\top \phi(x) wϕ(x) 压缩到 [ 0 , 1 ] [0, 1] [0,1],模型可以预测样本属于类别 y = 1 y = 1 y=1 y = 0 y = 0 y=0 的概率之和始终为 1。

3. z = 0 z = 0 z=0 时, σ ( z ) = 0.5 \sigma(z) = 0.5 σ(z)=0.5,因此决策边界为 w ⊤ ϕ ( x ) = 0 w^\top \phi(x) = 0 wϕ(x)=0

  • 决策边界是指模型对于一个样本是属于类别 1 还是类别 0 的决策规则。
  • w ⊤ ϕ ( x ) = 0 w^\top \phi(x) = 0 wϕ(x)=0 时,Sigmoid 函数输出 σ ( 0 ) = 0.5 \sigma(0) = 0.5 σ(0)=0.5,这意味着模型对于分类 y = 1 y = 1 y=1 y = 0 y = 0 y=0 持有同等信心,即分类是不确定的。
  • 决策边界就定义在这个临界值 w ⊤ ϕ ( x ) = 0 w^\top \phi(x) = 0 wϕ(x)=0,在此时,模型的输出是 0.5 0.5 0.5

4. 对于 D 维输入空间,决策边界是一个 D − 1 D-1 D1 维的超平面

  • 如果输入空间是 D 维的,即 x x x 是一个 D 维向量 ϕ ( x ) \phi(x) ϕ(x),那么 w ⊤ ϕ ( x ) = 0 w^\top \phi(x) = 0 wϕ(x)=0 就定义了一个超平面
  • 这个超平面将 D 维空间分割成两个区域:
    • 在超平面一侧,模型预测 y = 1 y = 1 y=1
    • 在另一侧,模型预测 y = 0 y = 0 y=0

对于 D 维输入,决策边界是 D − 1 D-1 D1 维的超平面。这是因为一个超平面在 D 维空间中是少一维的结构。

5. 为什么逻辑回归是分类模型而不是回归模型?

尽管逻辑回归的名称中有“回归”,但它实际上是用于分类任务的。名称中的“回归”部分来源于以下两个方面:

  1. 线性部分:逻辑回归中的决策函数 w ⊤ ϕ ( x ) w^\top \phi(x) wϕ(x) 是一个线性回归的形式。它对输入特征 x x x 进行线性组合。

  2. 历史背景:逻辑回归这个名称起源于早期的统计学中,尽管它不是用于预测连续变量(这才是回归模型的特点),它使用了回归的框架来预测类别。

为什么称为分类模型:

  • 分类目标:逻辑回归的目标是将样本分为两类,而不是预测连续值。它将线性回归的输出压缩到 [ 0 , 1 ] [0, 1] [0,1] 的范围,然后使用这个结果来建模类概率。

  • 后验概率:通过 Sigmoid 函数,逻辑回归可以输出后验概率,表示样本属于某个类别的可能性。

权重向量 w w w 的大小(即 ∣ ∣ w ∣ ∣ ||w|| ∣∣w∣∣ 的范数)对分类器在决策边界附近的行为的影响

1. 逻辑回归模型中的权重向量 w w w 和 Sigmoid 函数

在逻辑回归中,输出类别的概率是通过线性组合 w ⊤ ϕ ( x ) w^\top \phi(x) wϕ(x) 和 Sigmoid 函数 σ ( z ) \sigma(z) σ(z) 计算得出的:

p ( y = 1 ∣ x ) = σ ( w ⊤ ϕ ( x ) ) = 1 1 + e − w ⊤ ϕ ( x ) p(y = 1 | x) = \sigma(w^\top \phi(x)) = \frac{1}{1 + e^{-w^\top \phi(x)}} p(y=1∣x)=σ(wϕ(x))=1+ewϕ(x)1

  • w ⊤ ϕ ( x ) w^\top \phi(x) wϕ(x) 趋近于 0 时,Sigmoid 函数输出的概率会接近 0.5。这是因为当 σ ( 0 ) = 0.5 \sigma(0) = 0.5 σ(0)=0.5 时,模型对 y = 1 y = 1 y=1 y = 0 y = 0 y=0 的判断是不确定的
  • w ⊤ ϕ ( x ) w^\top \phi(x) wϕ(x) 非常大时,Sigmoid 函数的输出接近 1;当 w ⊤ ϕ ( x ) w^\top \phi(x) wϕ(x) 非常小时,Sigmoid 函数的输出接近 0。

2. 权重向量的范数 ∣ ∣ w ∣ ∣ ||w|| ∣∣w∣∣ 的影响

  1. 小的 ∣ ∣ w ∣ ∣ ||w|| ∣∣w∣∣

    • ∣ ∣ w ∣ ∣ ||w|| ∣∣w∣∣ 较小(即权重向量的大小较小)时,线性组合 w ⊤ ϕ ( x ) w^\top \phi(x) wϕ(x) 在特征空间中的变化较为缓慢。
    • 决策边界附近(即 w ⊤ ϕ ( x ) ≈ 0 w^\top \phi(x) \approx 0 wϕ(x)0),因为权重小,输入特征的变化不会导致 w ⊤ ϕ ( x ) w^\top \phi(x) wϕ(x) 产生太大的值。因此,在决策边界附近的大部分区域, w ⊤ ϕ ( x ) w^\top \phi(x) wϕ(x) 可能接近于 0,导致 Sigmoid 函数的输出也接近 0.5。
    • 这种情况下,模型的输出概率在决策边界附近是不太确定的,即模型不太自信,很多概率会接近 0.5。
  2. 大的 ∣ ∣ w ∣ ∣ ||w|| ∣∣w∣∣

    • ∣ ∣ w ∣ ∣ ||w|| ∣∣w∣∣ 较大时,线性组合 w ⊤ ϕ ( x ) w^\top \phi(x) wϕ(x) 在特征空间中的变化更为剧烈。
    • 在这种情况下,即使输入特征 x x x 有较小的变化,权重向量的较大值也会导致 w ⊤ ϕ ( x ) w^\top \phi(x) wϕ(x) 快速远离 0。因此,Sigmoid 函数的输出更容易快速接近 1 或 0。
    • 这意味着在决策边界附近,即使输入数据点稍微偏离决策边界,模型的输出也会迅速变为接近 1 或接近 0。此时,模型对分类的自信度更高,输出的概率接近于 1 或 0。

3. 为什么会出现这种现象?

这背后的原因是权重向量的大小决定了 Sigmoid 函数输入值的变化速度

  • 小的 ∣ ∣ w ∣ ∣ ||w|| ∣∣w∣∣ 导致 w ⊤ ϕ ( x ) w^\top \phi(x) wϕ(x) 在特征空间中的变化较小,因此 Sigmoid 函数的输出也变化较慢,使得决策边界附近的分类概率接近 0.5。
  • 大的 ∣ ∣ w ∣ ∣ ||w|| ∣∣w∣∣ 则意味着 w ⊤ ϕ ( x ) w^\top \phi(x) wϕ(x) 对特征的变化更加敏感,因此 Sigmoid 函数的输出变化很快,从而更快地接近 0 或 1。

4. 可视化解释

  • 对于小的 ∣ ∣ w ∣ ∣ ||w|| ∣∣w∣∣,决策边界附近的概率变化比较平缓,Sigmoid 函数的输出在较大区域内接近 0.5。
  • 对于大的 ∣ ∣ w ∣ ∣ ||w|| ∣∣w∣∣,Sigmoid 函数的输出在决策边界附近变化非常快,导致模型对输入数据点的分类更加确定,即概率更接近 0 或 1。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值