关于二项逻辑斯谛回归的探讨

最新推荐文章于 2024-09-04 23:43:50 发布

sysu_lindayong

最新推荐文章于 2024-09-04 23:43:50 发布

阅读量1.2k

点赞数

本文链接：https://blog.csdn.net/github_30438191/article/details/54427236

版权

本文深入探讨了二项逻辑斯谛回归，首先介绍了指数家族的概念，阐述了它作为最少约束条件下的最大熵模型的重要性。接着详细解释了如何将二分类问题的Bernoulli分布转换为指数家族形式，从而形成逻辑斯谛回归模型，强调了对数几率和sigmoid函数在模型中的作用。此外，文章还提及多项逻辑斯谛回归与softmax回归的等价性。

摘要由CSDN通过智能技术生成

关于二项逻辑斯谛回归的探讨，本文主要参考 MLaPP 第9章

1. 指数家族

在介绍逻辑斯谛回归模型之前，我们要先介绍一下指数家族。为什么要介绍指数家族呢？在 MLaPP 9.2.6 中证明了，指数家族是最少约束条件下的最大熵模型。这个最少约束条件是只需要知道特征函数的期望值。然后使用熵的定义和拉格朗日方法来定义并求解这种带约束的优化问题。（证明思路：优化问题是概率分布的熵最大化，约束条件是概率为非负实数且概率之和为1. 然后用拉格朗日方法写出表达式，让表达式对概率分布求导并令导数为0，得到约束条件下熵最大的概率分布。）

最少约束条件下的最大熵模型，意味着指数家族是普适的最好模型。因此在逻辑斯谛回归问题中：

我们先根据问题的类型（二分类 / 多分类）写出概率分布模型（Bernoulli / Multinoulli Distribution）。
然后通过变量替换的方法，把概率分布模型变换成指数家族的形式。
最后我们就得到了在《统计学习方法》或《机器学习》中看到的逻辑斯谛回归模型，以及附加在上面的各种解释。但从本质上来说，逻辑斯谛回归模型是指数家族模型，是普适的最好模型。

指数家族（exponential family）的概率分布函数 $p(\mathbf{x}|\boldsymbol{\theta})$ 具有如下形式：

p (x | θ) = 1 Z ( θ ) exp [θ T ϕ (x)]

$\begin{align} p(\mathbf{x}|\boldsymbol{\theta}) &= \frac{1}{Z(\boldsymbol{\theta})} \exp[\boldsymbol{\theta}^T\phi(\mathbf{x})] \notag \end{align}$ 这里的

θ $\boldsymbol{\theta}$ 被称为自然参数（natural parameters）。令

θ=wTx $\boldsymbol{\theta} = \mathbf{w}^T \mathbf{x}$ ，得到的模型称为广义线性模型。

2. 二项逻辑斯谛回归

对于一个二分类问题，我们首先假设其输出 $y$ 服从均值参数（mean parameter）为 $\boldsymbol{\mu}$ 的 Bernoulli 分布，即：

Ber (y | μ) = μ y (1 - μ) 1 - y = (1 - μ) exp [y log (μ 1 - μ)]

$\text{Ber}(y|\boldsymbol{\mu}) = \boldsymbol{\mu}^y (1-\boldsymbol{\mu})^{1-y} = (1-\boldsymbol{\mu}) \exp \left[ y \log\left( \frac{\boldsymbol{\mu}}{1-\boldsymbol{\mu}} \right) \right]$ 这里

μ $\boldsymbol{\mu}$ 是给定输入

x $\mathbf{x}$ ，输出

y $y$ 取正类的概率。因此，如果能够把

μ $\boldsymbol{\mu}$ 表示成关于输入

x $\mathbf{x}$ 的函数，那么我们就可以得到二项逻辑斯谛回归模型。而要得到这种函数表示，最明智的选择是通过变量替换的方法将概率分布变换成指数家族的形式。

令 $Z(\boldsymbol{\theta}) = 1/(1-\boldsymbol{\mu})$ 、 $\boldsymbol{\theta} = \log(\frac{\boldsymbol{\mu}}{1-\boldsymbol{\mu}})$ 、 $\phi(\mathbf{x}) = \mathbf{x}$ ，从而得到指数家族的形式。在《统计机器学习》和《机器学习》中，将 $\log \left( \frac{\boldsymbol{\mu}}{1-\boldsymbol{\mu}} \right)$ 定义成对数几率，并假设输出 $y=1$ 的对数几率是输入 $\mathbf{x}$ 的线性函数，从而得到二项逻辑斯谛回归模型。为什么要选择对数几率 / sigm 函数，其来源应该是这样吧！