对数几率回归

最新推荐文章于 2023-11-17 16:02:12 发布

dolphin4mi

最新推荐文章于 2023-11-17 16:02:12 发布

阅读量237

点赞数

分类专栏：概率

概率专栏收录该内容

3 篇文章 0 订阅

订阅专栏

前人栽树，后人乘凉，既然前人已经完成了的工作，我觉得没必要做重复的工作，“拿来主义”对于我个人的入门和学习是必要的。在此谢谢他们。内容来自：https://blog.csdn.net/hongbin_xu/article/details/78270526，如果有侵权，联系我删除。

理论推导

在以前的博客（机器学习入门学习笔记：（2.1）线性回归理论推导）中推导了单元线性回归和多元线性回归的模型。
将线性回归模型简写为： $y=\omega^{T} x+b$ ；
对数线性回归模型可以写成： $\ln (y)=\omega^{T}+b$ ；本质上仍然是线性回归，只不过拟合的是非线性的ln函数了。
更一般地，考虑单调可微函数 $g (.)$ ，令 $y=g^{-1}\left(\omega^{T} x+b\right)$ ；这个模型就叫做广义线性回归模型。
对于二分类任务，输出标记为 $\in\{0,1\}$ ，而线性回归的预测结果 $h(x)=\omega^{T} x+b$ ，很明显是一个连续值，所以需要将其转换为0/1值。
所以要用到单位阶越函数： $y=\left\{\begin{array}{l}{0, h(x)<0} \\ {0.5, h(x)=0} \\ {1, h(x)>0}\end{array}\right.$

即，若预测值大于0，就判为正例；若预测值小于0，就判为负例；临界值处，任意判别。
我们都知道，阶跃函数不可导，不连续，而 $g^{-1}( .)$ 必须是一个可微的函数，所以阶跃函数不能用作 $g^{-1}( .)$ ，还需要找一个连续函数代替阶跃函数。
我们常用对数几率函数（logistic function）来进行替代：
$y=\frac{1}{1+e^{-z}}$

画出图形会看到它形似S，所以也是一种sigmoid函数。
把对数几率函数作为 $g^{-1}( .)$ ，代入到广义线性回归的公式中：
$y=\frac{1}{1+e^{-\left(\omega^{T} x+b\right)}}$

做一些化简，可以得到：
$\ln \left(\frac{y}{1-y}\right)=\omega^{T} x+b$

其中，y是正例的可能性，(1-y)是负例的可能性。
那么，这个 $\ln \left(\frac{y}{1-y}\right)$ 其实就是“对数几率”，等式右边的是什么不用说了吧。可以看出，对数几率回归实质上就是使用线性回归模型 $\left(\omega^{T} x+b\right)$ 来逼近这个对数几率 $\left(\ln \left(\frac{y}{1-y}\right)\right)$ 。
好的，那么问题来了。如何求解出这个模型中的未知参数ω和b呢？
只考虑二分类的情况下，将y换成后验概率 $P (y = 1 ∣ x)$ 来表示，同理1-y可以换成 $P (y = 0 ∣ x)$ 。
则有：
$\left\{\begin{array}{l}{\ln \left(\frac{P(y-1 | x)}{P(y-0 | x)}\right)=\omega^{T} x+b} \\ {P(y=1 | x)+P(y=0 | x)=1}\end{array}\right.$

解得：
$\left\{\begin{array}{l}{P(y=1 | x)=\frac{e^{x} x+b}{1+e^{x^{T} x+b}}} \\ {P(y=0 | x)=\frac{1}{1+e^{x^{x} x+b}}}\end{array}\right.$

通过极大似然法来估计ωω和bb：
$L(\omega, b)=\sum_{i=1}^{m} \ln \left(P\left(y_{i} | x i ; \omega, b\right)\right)$

为表述方便，使用一个新矩阵ββ来表示ω和b，令 $\beta=\{\omega ,b\}$ 。
同时也要给x矩阵补上一列1，令 $x^{\prime}=\{x \quad, 1\}$ 。因为要对应参数b，补上1，保证结果不变。
那么， $\omega^{T} x+b=\beta^{T} x^{\prime}$ 。
由于是二分类，即只有y=0和y=1的情况，那么可以将似然项重写为y=0和y=1的情况相加：
$p\left(y_{i} | x_{i} ; \beta\right)=y_{i} \times p\left(y=1 | x_{i}^{\prime} ; \beta\right)+\left(1-y_{i}\right) \times p\left(y=0 | x_{i}^{\prime} ; \beta\right)$
”西瓜书“上是这么写的，当然这样也不难理解。其实为了后面推导方便和容易理解，我们可以换成对数几率的形式来表示，原理依然是一样的，无非是加了个对数：
$\ln \left[p\left(y_{i} | x_{i} ; \beta\right)\right]=y_{i} \times \ln \left[p\left(y=1 | x_{i}^{\prime} ; \beta\right)\right]+\left(1-y_{i}\right) \times \ln \left[p\left(y=0 | x_{i}^{\prime} ; \beta\right)\right]$

将上式代入到前面极大似然的公式中： $L(\beta)=\sum_{i=1}^{m} \ln \left(P\left(y_{i} | x i ; \beta\right)\right)$
联立前面推出的后验概率的结果：
$\left\{\begin{array}{l}{P(y=1 | x)=\frac{e^{x^{T} x+b}}{1+e^{x^{T} x+b}}} \\ {P(y=0 | x)=\frac{1}{1+e^{x^{T} x+b}}}\end{array}\right.$

得到最后的结果：
$L(\beta)=\sum_{i=1}^{m}\left(y_{i} \beta^{T} x_{i}^{\prime}-\ln \left(1+e^{\beta^{T} x_{i}^{\prime}}\right)\right)$
由于是极大似然，我们需要求出其极大值，所以有：
￥ $\beta^{*}=\operatorname{argmax}_{m} L(\beta)$
求出使L(β)最大的最优解等价于求出使−L(β)最小的解，所以有：
$\begin{aligned} \beta^{*} &=\operatorname{argmax}_{m} L(\beta)=\operatorname{argmin}_{m} L(\beta) \\ &=\sum_{i=1}^{m}\left(-y_{i} \beta^{T} x_{i}^{\prime}+\ln \left(1+e^{\beta^{T} x_{i}^{\prime}}\right)\right) \end{aligned}$
最后可以通过凸优化中的梯度下降法、牛顿法等方法来求出L(β)L(β)函数的最优解β∗β∗。

dolphin4mi

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
对数几率回归

前人栽树，后人乘凉，既然前人已经完成了的工作，我觉得没必要做重复的工作，“拿来主义”对于我个人的入门和学习是必要的。在此谢谢他们。内容来自：https://blog.csdn.net/hongbin_xu/article/details/78270526，如果有侵权，联系我删除。理论推导在以前的博客（机器学习入门学习笔记：（2.1）线性回归理论推导）中推导了单元线性回归和多元线性回归的模型。...
复制链接

扫一扫

专栏目录