机器学习笔记03-求导规则与梯度下降算法推导

最新推荐文章于 2024-10-29 16:37:35 发布

dyclg

最新推荐文章于 2024-10-29 16:37:35 发布

阅读量518

点赞数

文章标签：数学机器学习

本文链接：https://blog.csdn.net/dycljj/article/details/110223933

版权

导数简介

关于导数的定义，网上已经有很多了，本文主要说明一些常见函数的导数以及一些推导过程。之前看过一篇知乎，对如何理解导数讲的挺全面的，有兴趣的朋友可以看看这篇文章—>如何理解导数的概念。
关于导数最简单也最通俗易懂的一个定义就是：曲线的切线的斜率。什么意思呢？
（1）首先理解切线，曲线上两点的连线确定一条割线，当这两个点足够靠近时，割线就变成了切线。
在这里插入图片描述
（2）当B点慢慢靠近A点时，割线的斜率一直在发生变化。当B点足够靠近A点时(“极限的思想”)，斜率也越来越接近一个值，这个值就叫作导数。
（3）我们一直在说导数是该点切线的斜率，可实际上，我们并不能画不出切线，然后去求取该切线的斜率直接得到导数。为什么呢？因为过一个点我们可以画出很多条线，哪条才是真正的切线呢，我们不得而知。或者说我们确定不了与要求取的点足够靠近的点在哪里，所以我们无法直接做出切线来。
（4）所以说，切线是算出来的，不是画出来的。
在这里插入图片描述

导数的基本公式

数学定义： $f^{\prime}(x)=\lim _{h \rightarrow 0} \frac{f(x+h)-f(x)}{h}$
以下为常见的一些函数的导数，其中 $c 和 a$ 表示常数，
$(c)^{\prime}=0$ $x)^{\prime}=c$ $\left(x^{a}\right)^{\prime}=a x^{a-1}$ $\left(\frac{c}{v}\right)^{\prime}=-\frac{c v^{\prime}}{v^{2}}$ $\left(\log _{a} x\right)^{\prime}= \frac{1}{x \ln a}$ $\left(a^{x}\right)^{\prime}=a^{x} \ln a$

导数的四则运算

函数 $u (x) ， v (x)$ 在点 $x$ 处可导，则：
$\pm v(x)]^{\prime}=u(x)^{\prime} \pm v(x)^{\prime}$ $u(x)]^{\prime}=c u^{\prime}(x),c为常数$ $\left.\left[u(x\right) \cdot v(x)\right]^{\prime}=u^{\prime}(x) \cdot v(x)+u(x) \cdot v^{\prime}(x)$ $\left[\frac{u(x)}{v(x)}\right]^{\prime}=\frac{u^{\prime}(x) \cdot v(x)-u(x) \cdot v^{\prime}(x)}{[v(x)]^{2}}$
当时老师讲的时候好像是这么说的（方便记忆）：
针对第三个公式乘法：前导后不导加上后导前不导
针对第四个除法公式：上导下不导减去下导上不导，除以下不导的平方。

针对梯度下降算法推导

$\theta_{j}:=\theta_{j}-\alpha \frac{\partial}{\partial \theta_{j}} J_{\left(\theta_{0}, \theta_{1}\right)},for(j=1 and j=0)$ 其中 $\frac{\partial}{\partial \theta_{j}} J_{\left(\theta_{0}, \theta_{1}\right)}$ 其实就是计算的梯度， $: =$ 表示赋值， $\alpha$ 表示学习率（步长）。注意 $\theta_{0}$ 和 $\theta_{1}$ 应该同时更新。
（1）公式代换：公式中使用的点乘( $\cdot$ )表示乘法，用法可能不严谨。
$\begin{aligned} \theta_{j} &:=\theta_{j}-\alpha \frac{\partial}{\partial \theta_{j}} J_{\left(\theta_{0}, \theta_{1}\right)} \\ &:=\theta_{j}-\alpha \frac{\partial}{\partial \theta_{j}} \cdot \frac{1}{2 m} \sum_{i=1}^{m}\left(h_{\theta}(x^{(i)})-y(i)\right)^{2} \\ &:=\theta_{j}-\alpha \frac{\partial}{\partial \theta_{j}} \cdot \frac{1}{2 m} \sum_{i=1}^{m}\left(\theta_{0}+\theta_{1} x^{(i)}-y^{(i)}\right)^{2} \end{aligned}$
因此，当 $j = 0$ 时，即可得到 $\theta_{0}$ ，当 $j = 1$ 时，即可得到 $\theta_{1}$ 。
（1）当 $j = 0$ 时， $\theta_{j}$ = $\theta_{0}$ ，此时需要注意公式中的求导 $\frac{\partial}{\partial \theta_{j}}$ 即变为 $\frac{\partial}{\partial \theta_{0}}$ ，也就是说求取的是关于 $\theta_{0}$ 的导数，其余参数相当于常数项。
在这里插入图片描述

好了，现在将里边的平方项展开（使用上边讲述的公式，切记自变量是 $\theta_{0}$ ,其余参数均为常数项）：
$\theta_{0}:=\theta_{0}-\alpha \frac{\partial}{\partial \theta_{0}} \frac{1}{2 m} \sum_{i=1}^{m}\left[\theta_{0}^{2}+2\left(\theta_{1} x^{(i)}-y^{(i)}\right) \theta_{0}+\left(\theta_{1} x^{(i)}-y^{(i)}\right)^{2}\right] \\ :=\theta_{0}-\alpha \frac{1}{2 m} \sum_{i=1}^{m}\left[2\theta_{0}+2\left(\theta_{1} x^{(i)}-y^{(i)}\right) \right]\\ :=\theta_{0}-\alpha \frac{1}{m} \sum_{i=1}^{m}\left(\theta_{0}+\theta_{1} x^{(i)}-y^{(i)}\right)\\ :=\theta_{0}-\alpha \frac{1}{m} \sum_{i=1}^{m}\left(h_{\theta}(x^{(i)})-y^{(i)}\right)$
(2)当 $j = 1$ 时， $\theta_{j}$ = $\theta_{1}$ ，此时需要注意公式中的求导 $\frac{\partial}{\partial \theta_{j}}$ 即变为 $\frac{\partial}{\partial \theta_{1}}$ ，也就是说求取的是关于 $\theta_{1}$ 的导数，其余参数相当于常数项。
在这里插入图片描述

同上，将平方项先展开（此时的自变量变为 $\theta_{1}$ ,其余参数均为常数项）：
$\theta_{1} := \theta_{1} - \alpha \frac{\partial}{\partial \theta_{1}} \frac{1}{2 m} \cdot \sum_{i=1}^{m}\left[\left(\theta_{0}-y^{(i)}\right)^{2}+2 \theta_{1} x^{(i)} \cdot\left(\theta_{0}-y^{(i)}\right)+\theta_{1}^{2} \cdot\left(x^{(i)}\right)^{2}\right]\\ :=\theta_{1} - \alpha \frac{1}{2 m} \cdot \sum_{i=1}^{m}\left[0+2 x^{(i)} \cdot\left(\theta_{0}-y^{(i)}\right)+2\theta_{1} \cdot\left(x^{(i)}\right)^{2}\right]\\ :=\theta_{1} - \alpha \frac{1}{2 m} \cdot \sum_{i=1}^{m}\left[2 x^{(i)} \cdot[\theta_{0}-y^{(i)}+\theta_{1} x^{(i)}]\right]\\ :=\theta_{1} - \alpha \frac{1}{m} \cdot \sum_{i=1}^{m}\left(\theta_{0}-y^{(i)}+\theta_{1} x^{(i)}\right)\cdot x^{(i)}\\ :=\theta_{1}-\alpha \frac{1}{m} \sum_{i=1}^{m}\left(h_{\theta}(x^{(i)})-y^{(i)}\right) \cdot x^{(i)}$

以最终可以推出以下结果：
$\begin{aligned} \theta_{0} &:=\theta_{0}-\alpha \frac{1}{m} \sum_{i=1}^{m}\left(h_{\theta}(x^{(i)})-y^{(i)}\right) \\ \theta_{1} &:=\theta_{1}-\alpha \frac{1}{m} \sum_{i=1}^{m}\left(h_{\theta}(x^{(i)})-y^{(i)}\right) \cdot x^{(i)} \end{aligned}$ 等价于： $\begin{aligned} \theta_{0} &:=\theta_{0}-\alpha \frac{1}{m} \sum_{i=1}^{m}\left(\theta_{0}+\theta_{1} x^{(i)}-y^{(i)}\right) \\ \theta_{1} &:=\theta_{1}-\alpha \frac{1}{m} \sum_{i=1}^{m}\left(\theta_{0}+\theta_{1} x^{(i)}-y^{(i)}\right) \cdot x^{(i)} \end{aligned}$