机器学习入门学习笔记：（2.3）对数几率回归推导

最新推荐文章于 2025-02-23 14:03:28 发布

hongbin_xu

最新推荐文章于 2025-02-23 14:03:28 发布

阅读量9.9k

点赞数 21

分类专栏：机器学习机器学习笔记文章标签：机器学习数学

本文链接：https://blog.csdn.net/hongbin_xu/article/details/78270526

版权

机器学习同时被 2 个专栏收录

29 篇文章

订阅专栏

机器学习笔记

13 篇文章

订阅专栏

本文介绍了对数几率回归的基本概念及其数学推导过程。首先从线性回归模型出发，引入对数几率函数进行二分类任务，并利用极大似然法估计模型参数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

理论推导

在以前的博客（机器学习入门学习笔记：（2.1）线性回归理论推导）中推导了单元线性回归和多元线性回归的模型。
将线性回归模型简写为： $y = \omega^Tx+b$ ；
对数线性回归模型可以写成： $ln(y) = \omega^T + b$ ；本质上仍然是线性回归，只不过拟合的是非线性的ln函数了。
更一般地，考虑单调可微函数 $g(.)$ ，令 $y = g^{-1}(\omega^T x + b)$ ；这个模型就叫做广义线性回归模型。（直接抄书的，实在不擅长背定义QAQ）
对于二分类任务，输出标记为 $y\in\lbrace0, 1\rbrace$ ，而线性回归的预测结果 $h(x) = \omega^T x + b$ ，很明显是一个连续值，所以需要将其转换为 $0 / 1$ 值。
所以要用到单位阶越函数：

y = ⎧ ⎩ ⎨ 0, h (x) < 0; 0.5, h (x) = 0; 1, h (x) > 0;

$y = \begin{cases}0, h(x)<0;\\0.5, h(x)=0;\\1, h(x) >0;\end{cases}$
即，若预测值大于0，就判为正例；若预测值小于0，就判为负例；临界值处，任意判别。
我们都知道，阶跃函数不可导，不连续，而

g−1(.) $g^{-1}(.)$ 必须是一个可微的函数，所以阶跃函数不能用作

g−1(.) $g^{-1}(.)$ ，还需要找一个连续函数代替阶跃函数。
我们常用 对数几率函数（logistic function）来进行替代：

y = 1 1 + e - z

$y = \frac{1}{1+e^{-z}}$
画出图形会看到它形似S，所以也是一种sigmoid函数。
把对数几率函数作为

g−1(.) $g^{-1}(.)$ ，代入到广义线性回归的公式中：

y = 1 1 + e - ( ω T x + b )

$y = \frac{1}{1+e^{-(\omega^Tx+b)}}$
做一些化简，可以得到：

ln (y 1 - y) = ω T x + b

$\ln(\frac{y}{1-y}) = \omega^Tx+b$
其中，y是正例的可能性，(1-y)是负例的可能性。
那么，这个

ln(y1−y) $\ln(\frac{y}{1-y})$ 其实就是“对数几率”，等式右边的是什么不用说了吧。可以看出，对数几率回归实质上就是使用线性回归模型（

ωTx+b $\omega^Tx+b$ ）来逼近这个对数几率（

ln(y1−y) $\ln(\frac{y}{1-y})$ ）。
好的，那么问题来了。如何求解出这个模型中的未知参数

ω $\omega$ 和

b $b$ 呢？
只考虑二分类的情况下，将y换成后验概率

P(y=1|x) $P(y=1|x)$ 来表示，同理1-y可以换成

P(y=0|x) $P(y=0|x)$ 。
则有：

{ln (P ( y = 1 | x ) P ( y = 0 | x )) = ω T x + b P (y = 1 | x) + P (y = 0 | x) = 1

$\begin{cases}\ln(\frac{P(y=1|x)}{P(y=0|x)}) = \omega^Tx+b\\P(y=1|x)+P(y=0|x)=1\end{cases}$
解得：

⎧ ⎩ ⎨ P (y = 1 | x) = e ω T x + b 1 + e ω T x + b P (y = 0 | x) = 1 1 + e ω T x + b

$\begin{cases}P(y=1|x)=\frac{e^{\omega^Tx+b}}{1+e^{\omega^Tx+b}}\\P(y=0|x)=\frac{1}{1+e^{\omega^Tx+b}}\end{cases}$
通过极大似然法来估计

ω $\omega$ 和

b $b$ ：

L (ω, b) = \sum i = 1 m ln (P (y i | x i; ω, b))

$L(\omega,b) = \sum_{i=1}^m\ln(P(y_i|xi;\omega,b))$
为表述方便，使用一个新矩阵

β $\beta$ 来表示

ω $\omega$ 和

b $b$ ，令

β={ωb} $\beta=\left\{\begin{matrix}\omega & b\end{matrix}\right\}$ 。
同时也要给x矩阵补上一列1，令

x′={x1} $x^{'} = \left\{\begin{matrix} x & 1\end{matrix}\right\}$ 。因为要对应参数b，补上1，保证结果不变。
那么，

ωTx+b=βTx′ $\omega^Tx+b = \beta^Tx^{'}$ 。
由于是二分类，即只有

y=0 $y=0$ 和

y=1 $y=1$ 的情况，那么可以将似然项重写为

y=0 $y=0$ 和

y=1 $y=1$ 的情况相加：

p (y i | x i; β) = y i \times p (y = 1 | x' i; β) + (1 - y i) \times p (y = 0 | x' i; β)

$p(y_i|x_i;\beta) = y_i \times p(y=1|x_{i}^{'};\beta) + (1-y_i) \times p(y=0|x_{i}^{'};\beta)$
”西瓜书“上是这么写的，当然这样也不难理解。其实为了后面推导方便和容易理解，我们可以换成对数几率的形式来表示，原理依然是一样的，无非是加了个对数：