LR（logistic regression）逻辑回归Loss和梯度的推导

最新推荐文章于 2022-09-26 16:06:53 发布

taoqick

最新推荐文章于 2022-09-26 16:06:53 发布

阅读量2.1k

点赞数 2

分类专栏：算法机器学习

本文链接：https://blog.csdn.net/taoqick/article/details/102870316

版权

算法同时被 2 个专栏收录

474 篇文章 6 订阅

订阅专栏

机器学习

73 篇文章 0 订阅

订阅专栏

逻辑斯蒂回归的先验分布是伯努利分布，softmax的先验分布是多项式分布

LR太简单了，简单到经常被用，但是很多推导仍然迷糊的程度，这篇主要用来总结一下。

线性回归的表达式：
$f(x)=w^Tx+b$
由于带一个b，我们可以令 $x'=[1, x]^T$ ，同时 $w'=[b, w]^T$ ，这样直线方程就可以简化成
$f'(x)=w^{'T}x$
所以，当有m组训练数据，n维features时，一会儿得到的梯度是n+1维，接下来推梯度，先得推导一下loss function。由于线性回归结果是个实数，为了让他属于(0,1)之间，给它过一个sigmoid。如果是多分类，最后接Softmax。假设有一组样本 $x_1,y_1),(x_2,y_2)...(x_n,y_n)$ ，针对2分类的情况， $y_n=0或1$ ，给定 $x_i$ 的情况下， $y_i$ 是1的概率是 $p_i=\frac{1}{1+exp(-wx_i)}$ ，loss function利用了最大似然的想法：
$L=ln[\prod_{i=1}^np_i^{y_i}(1-p_i)^{(1-y_i)}] \\ L=\sum_i[{y_ilnp_i+(1-y_i)ln(1-p_i)]} \\ obj = \argmax_w{L(w)} \\ 当然可以改成 obj = \argmin_w{-L(w)} \\ 所以 \\ L=-\sum_i[{y_ilnp_i+(1-y_i)ln(1-p_i)]}$
接下来开始求梯度，注意 $\frac{\partial p_i}{\partial w_i} = p_i(1-p_i)x_i$
$\frac{\partial L}{\partial w}=-\sum_{i=1}^nx_i(y_i-p_i)$

最后用Adam求解就可以

另外一个问题是LR是不是凸函数，当然是，因为二阶Hessian矩阵>=0，下面我们求一下二阶导数：
$\frac{\partial^2 L}{\partial^2 w}=-\sum_{i=1}^np_i(1-p_i)x_ix_i^T >= 0$

taoqick

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
LR（logistic regression）逻辑回归Loss和梯度的推导

LR太简单了，简单到经常被用，但是很多推导仍然迷糊的程度，这篇主要用来总结一下。线性回归的表达式：f(x)=wTx+bf(x)=w^Tx+bf(x)=wTx+b由于带一个b，我们可以令x′=[1,x]Tx'=[1, x]^Tx′=[1,x]T，同时w′=[b,w]Tw'=[b, w]^Tw′=[b,w]T，这样直线方程就可以简化成f′(x)=w′Txf'(x)=w^{'T}xf′(x)=w...
复制链接

扫一扫

专栏目录