【机器学习笔记】Logistics Regression中损失函数求偏导的具体步骤

最新推荐文章于 2024-04-19 09:08:26 发布

不乏希望

最新推荐文章于 2024-04-19 09:08:26 发布

阅读量1.7k

点赞数 4

分类专栏：笔记算法文章标签：机器学习

本文链接：https://blog.csdn.net/qq_43872529/article/details/120257914

版权

笔记同时被 2 个专栏收录

35 篇文章 6 订阅

订阅专栏

算法

2 篇文章 0 订阅

订阅专栏

根据吴恩达老师机器学习课程中在 Logistics Regression 中定义的损失函数：
$J(\theta)=-\frac{1}{m} \sum_{i=1}^{m}\left[y^{(i)} \log \left(h_{\theta}\left(x^{(i)}\right)\right)+\left(1-y^{(i)}\right) \log \left(1-h_{\theta}\left(x^{(i)}\right)\right)\right]$

对其中每个参数 $\theta_{j}$ 求偏导数，过程如下：

$\begin{aligned} \frac{\partial}{\partial \theta_{j}} J(\theta) &=\frac{\partial}{\partial \theta_{j}} \frac{-1}{m} \sum_{i=1}^{m}\left[y^{(i)} \log \left(h_{\theta}\left(x^{(i)}\right)\right)+\left(1-y^{(i)}\right) \log \left(1-h_{\theta}\left(x^{(i)}\right)\right)\right] \\ &=-\frac{1}{m} \sum_{i=1}^{m}\left[y^{(i)} \frac{\partial}{\partial \theta_{j}} \log \left(h_{\theta}\left(x^{(i)}\right)\right)+\left(1-y^{(i)}\right) \frac{\partial}{\partial \theta_{j}} \log \left(1-h_{\theta}\left(x^{(i)}\right)\right)\right] \\ &=-\frac{1}{m} \sum_{i=1}^{m}\left[\frac{y^{(i)} \frac{\partial}{\partial \theta_{j}} h_{\theta}\left(x^{(i)}\right)}{h_{\theta}\left(x^{(i)}\right)}+\frac{\left(1-y^{(i)}\right) \frac{\partial}{\partial \theta_{j}}\left(1-h_{\theta}\left(x^{(i)}\right)\right)}{1-h_{\theta}\left(x^{(i)}\right)}\right] \\ &=-\frac{1}{m} \sum_{i=1}^{m}\left[\frac{y^{(i)} \frac{\partial}{\partial \theta_{j}} \sigma\left(\theta^{T} x^{(i)}\right)}{h_{\theta}\left(x^{(i)}\right)}+\frac{\left(1-y^{(i)}\right) \frac{\partial}{\partial \theta_{j}}\left(1-\sigma\left(\theta^{T} x^{(i)}\right)\right)}{1-h_{\theta}\left(x^{(i)}\right)}\right] \\ &=-\frac{1}{m} \sum_{i=1}^{m}\left[\frac{y^{(i)} \sigma\left(\theta^{T} x^{(i)}\right)\left(1-\sigma\left(\theta^{T} x^{(i)}\right)\right) \frac{\partial}{\partial \theta_{j}} \theta^{T} x^{(i)}}{h_{\theta}\left(x^{(i)}\right)}+\frac{-\left(1-y^{(i)}\right) \sigma\left(\theta^{T} x^{(i)}\right)\left(1-\sigma\left(\theta^{T} x^{(i)}\right)\right) \frac{\partial}{\partial \theta_{j}} \theta^{T} x^{(i)}}{1-h_{\theta}\left(x^{(i)}\right)}\right]\\ &=-\frac{1}{m} \sum_{i=1}^{m}\left[\frac{y^{(i)} h_{\theta}\left(x^{(i)}\right)\left(1-h_{\theta}\left(x^{(i)}\right)\right) \frac{\partial}{\partial \theta_{j}} \theta^{T} x^{(i)}}{h_{\theta}\left(x^{(i)}\right)}-\frac{\left(1-y^{(i)}\right) h_{\theta}\left(x^{(i)}\right)\left(1-h_{\theta}\left(x^{(i)}\right)\right) \frac{\partial}{\partial \theta_{j}} \theta^{T} x^{(i)}}{1-h_{\theta}\left(x^{(i)}\right)}\right] \\ &=-\frac{1}{m} \sum_{i=1}^{m}\left[y^{(i)}\left(1-h_{\theta}\left(x^{(i)}\right)\right) x_{j}^{(i)}-\left(1-y^{(i)}\right) h_{\theta}\left(x^{(i)}\right) x_{j}^{(i)}\right] \\ &=-\frac{1}{m} \sum_{i=1}^{m}\left[y^{(i)}\left(1-h_{\theta}\left(x^{(i)}\right)\right)-\left(1-y^{(i)}\right) h_{\theta}\left(x^{(i)}\right)\right] x_{j}^{(i)} \\ &=-\frac{1}{m} \sum_{i=1}^{m}\left[y^{(i)}-y^{(i)} h_{\theta}\left(x^{(i)}\right)-h_{\theta}\left(x^{(i)}\right)+y^{(i)} h_{\theta}\left(x^{(i)}\right)\right] x_{j}^{(i)} \\ &=-\frac{1}{m} \sum_{i=1}^{m}\left[y^{(i)}-h_{\theta}\left(x^{(i)}\right)\right] x_{j}^{(i)} \\ &=\frac{1}{m} \sum_{i=1}^{m}\left[h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right] x_{j}^{(i)} \end{aligned}$

可以发现，该偏导数和线性回归中损失函数对参数 $\theta$ 的偏导数形式是一致的，线性回归的损失函数定义为：

$J(\theta)=\frac{1}{2 m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right)^{2}$
其偏导数为：
$\begin{aligned} \frac{\partial J(\theta)}{\partial \theta_{j}} &=\frac{1}{m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right) \cdot x_{j}^{(i)} \end{aligned}$

将其进行向量化：
$\frac{\partial J(\theta)}{\partial \theta_{j}} \quad=\frac{1}{m} \overrightarrow{x_{j}}^{T}(X \theta-\vec{y})$
进一步得到损失函数的梯度：
$\nabla J(\theta) \quad=\frac{1}{m} X^{T}(X \theta-\vec{y})$

然后通过该梯度进行参数更新：
$\theta:=\theta-\frac{\alpha}{m} X^{T}(X \theta-\vec{y})$

其他内容可参考：吴恩达机器学习

不乏希望

关注

4
点赞
踩
10

收藏

觉得还不错? 一键收藏
2
评论
【机器学习笔记】Logistics Regression中损失函数求偏导的具体步骤

根据吴恩达老师机器学习课程中在 Logistics Regression 中定义的损失函数：J(θ)=−1m∑i=1m[y(i)log⁡(hθ(x(i)))+(1−y(i))log⁡(1−hθ(x(i)))]J(\theta)=-\frac{1}{m} \sum_{i=1}^{m}\left[y^{(i)} \log \left(h_{\theta}\left(x^{(i)}\right)\right)+\left(1-y^{(i)}\right) \log \left(1-h_{\theta}\le.
复制链接

扫一扫