机器学习（三）——逻辑回归(二元分类)

最新推荐文章于 2024-02-17 11:31:07 发布

天天乐见

最新推荐文章于 2024-02-17 11:31:07 发布

阅读量886

点赞数

分类专栏：算法文章标签：机器学习

本文链接：https://blog.csdn.net/a794922102/article/details/90479486

版权

算法专栏收录该内容

16 篇文章 3 订阅

订阅专栏

3.逻辑回归(二元分类)

逻辑回归是一个二分类问题，所以我们需要将预测的结果，映射到{0,1}之上。所以针对 $θ^Tx$ 的值，我们修改为：
$h_θ(x)=\frac{1}{1+e^{-θ^Tx}}$
当 $θ^Tx$ 趋近正无穷时， $h_θ(x)$ 趋近于1。当 $θ^Tx$ 趋近负无穷时， $h_θ(x)$ 趋近于0。则概率可写成如下形式：
$\begin{aligned} P(y=1|x;θ)&=h_θ(x)\\ P(y=0|x;θ)&=1-h_θ(x) \end{aligned}$
也可写成：
$P(y|x;θ)=(h_θ(x))^{y}(1-h_θ(x))^{1-y}$
此时我们使用，最大似然值来计算 $θ$ （条件概率的连乘）。并且对似然函数取对数，将连乘化为相加。
$\begin{aligned} l(θ)&=ln[L(θ)]\\ &=\sum^m_{i=1}\left\{y^{(i)}log[h(x^{(i)}]+(1−y^{(i)})log[1−h(x^{(i)})]\right\} \end{aligned}$
为了求似然函数的最大值，我们使用梯度上升法(沿着梯度的方向向上是增长最快的方向，下降也是如此)。
$θ_j=θ_j+α\frac{\partial l(θ)}{\partial θ_j}$
所以我们需要求 $l (θ)$ 对 $θ$ 的梯度：

其中
$\begin{aligned} \frac{\partial h(x^{(i)})}{\partial θ_j}&=\frac{e^{-θ^Tx^{(i)}}}{(1+e^{-θ^Tx^{(i)}})^2}x^{(i)}_j\\ &=h(x^{(i)})[1-h(x^{(i)})]x^{(i)}_j \end{aligned}$

直接对元素求导
$\begin{aligned} \frac{\partial l(θ)}{\partial θ_j} &=\sum^m_{i=1}\frac{\partial }{\partial θ_j}\left\{y^{(i)}log[h(x^{(i)}]+(1−y^{(i)})log[1−h(x^{(i)})]\right\}\\ &=\sum^m_{i=1}\left[\left(\frac{y^{(i)}}{h(x^{(i)})}-\frac{1-y^{(i)}}{1-h(x^{(i)})}\right)\frac{\partial h(x^{(i)})}{\partial θ_j}\right]\\ &=\sum^m_{i=1}\left[\left(y^{(i)}(1-h(x^{(i)})-(1-y^{(i)})h(x^{(i)})\right)x^{(i)}_j\right]\\ &=\sum^m_{i=1}\left[\left(y^{(i)}-h(x^{(i)})\right)x^{(i)}_j\right]\\ \end{aligned}$
对矩阵求导

令：
$X=\left[ \begin{matrix} —(x^{(1)})^T—\\ —(x^{(2)})^T—\\ \vdots\\ —(x^{(m)})^T— \end{matrix} \right] ,θ=\left[ \begin{matrix} θ_0\\ θ_1\\ \vdots\\ θ_n \end{matrix} \right], y=\left[ \begin{matrix} y^{(1)}\\ y^{(2)}\\ \vdots\\ y^{(m)} \end{matrix} \right]$
则我们可以知道：
$h_{θ}(x)=\frac{1}{1+e^{-Xθ}}$
所以 $l (θ)$ 可以写成:
$\begin{aligned} l(θ)&=y^Tlog[h_{θ}(x)]+(1-y)^Tlog[1-h_{θ}(x)]\\ &=(y-1)^TXθ-\mathbf 1^Tlog(1+e^{-Xθ}) \end{aligned}$
我们令 $l_1=(y-1)^TXθ，l_2=\mathbf 1^Tlog(1+e^{-Xθ})$ ,则微分为：
$\begin{aligned} d(l)&=d(l_1)-d(l_2)\\ \end{aligned}$
所以：
$d(l_1)=(y-1)^TXd(θ)\\$
下面我们来求 $d(l_2)$ ，令 $w=1+e^{a},a=-Xθ$ :
$\begin{aligned} d(l_2)&=tr\left[1^Td[log(w)]\right]\\ &=tr\left[1^T\left(\frac{1}{w}\odot d(w)\right)\right]\\ &=tr\left[\left(1\odot\frac{1}{w}\right)^T d(w)\right]\\ &=tr\left[(\frac{1}{w})^T d(w)\right]=tr\left[(\frac{\partial l_2}{\partial w})^T d(w)\right]\\ \end{aligned}$
所以我们可以得出
$\frac{\partial l_2}{\partial w}=\frac{1}{w}$
又因为：
$\begin{aligned} d(l_2)&=tr\left[(\frac{\partial l_2}{\partial w})^T d(w)\right]\\ &=tr\left[(\frac{\partial l_2}{\partial w})^T\left( e^a \odot d(w)\right)\right]\\ &=tr\left[\left(\frac{\partial l_2}{\partial w}\odot e^a\right)^T d(a)\right]=tr\left[(\frac{\partial l_2}{\partial a})^T d(a)\right]\\ \end{aligned}$
所以我们可以得出
$\frac{\partial l_2}{\partial a}=\frac{\partial l_2}{\partial w}\odot e^a=\frac{e^a}{w}$
又因为：
$\begin{aligned} d(l_2)&=tr\left[(\frac{\partial l_2}{\partial a})^T d(a)\right]\\ &=tr\left[(\frac{\partial l_2}{\partial a})^T (-X)d(θ)\right]\\ \end{aligned}$
因此我们可以得出：
$d(l_2)=-\left(\frac{e^{-Xθ}}{1+e^{-Xθ}}\right)^TXd(θ)$
所以：
$\begin{aligned} d(l)=d(l_1)-d(l_2)&=(y-1)^TXd(θ)+\left(\frac{e^{-Xθ}}{1+e^{-Xθ}}\right)^TXd(θ)\\ &=tr\left[\left(y-\frac{1}{1+e^{-Xθ}}\right)^TXd(θ)\right]=tr\left[\left(\frac{\partial l}{\partial θ}\right)^Td(θ)\right] \end{aligned}$
最终我们可以得到：
$\frac{\partial l}{\partial θ}=X^T\left(y-\frac{1}{1+e^{-Xθ}}\right)$

天天乐见

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习（三）——逻辑回归(二元分类)

3.逻辑回归(二元分类)逻辑回归是一个二分类问题，所以我们需要将预测的结果，映射到{0,1}之上。所以针对θTxθ^TxθTx的值，我们修改为：hθ(x)=11+e−θTxh_θ(x)=\frac{1}{1+e^{-θ^Tx}}hθ(x)=1+e−θTx1当θTxθ^TxθTx趋近正无穷时，hθ(x)h_θ(x)hθ(x)趋近于1。当θTxθ^TxθTx趋近负无穷时，hθ(x)h_...
复制链接

扫一扫

专栏目录