将梯度下降算法应用到线性回归中的数学推导及图示

Hydrion-Qlz

于 2022-01-25 16:13:19 发布

阅读量588

点赞数

分类专栏：深度学习文章标签：算法线性回归机器学习

本文链接：https://blog.csdn.net/qq_46311811/article/details/122687402

版权

深度学习专栏收录该内容

32 篇文章 4 订阅

订阅专栏

文章目录

- - 线性回归和梯度下降的形式表达
  - 应用计算

线性回归和梯度下降的形式表达

线性回归：

假设函数
$h_\theta (x)=\theta_0+\theta_1x \tag1$
代价函数
$J(\theta)=\frac {1} {2m} \sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2 \tag2$
梯度下降：
$\begin{aligned} &\text{ repeat\ until\ convergence}\{\\ &\qquad \theta_j = \theta_j - \alpha \frac {\partial J(\theta_0,\theta_1)}{\partial\theta_j}\qquad (for\ j =0\ and\ j=1)\\ &\} \end{aligned} \tag3$

应用计算

首先先计算代价函数对于两个参数 $\theta_0，\theta_1$ 的偏导数：
$\begin{aligned} \frac {\partial }{\partial \theta_j}J(\theta_0,\theta_1) &=\frac {\partial }{\partial \theta_j} \frac {1}{2m} \sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2 \\ &=\frac {\partial }{\partial \theta_j} \frac {1}{2m} \sum_{i=1}^m(\theta_0+\theta_1x^{(i)}-y^{(i)})^2 \end{aligned} \tag4$
代价函数对于参数 $\theta_0$ 的偏导数：
$\frac {\partial }{\partial \theta_0}J(\theta_0,\theta_1) = \frac {1}{m} \sum_{i=1}^m (h_\theta(x^{(i)})-y^{(i)}) \tag5$
代价函数对于参数 $\theta_1$ 的偏导数：
$\frac {\partial }{\partial \theta_1}J(\theta_0,\theta_1) = \frac {1}{m} \sum_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})\cdot x^{(i)} \tag6$
将其带回到梯度下降算法中去：
$\begin{aligned} &\text{ repeat\ until\ convergence}\{\\ &\qquad \theta_0 = \theta_0 - \alpha \frac {1}{m} \sum_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})\\ &\qquad \theta_1 = \theta_1 - \alpha \frac {1}{m} \sum_{i=1}^m (h_\theta(x^{(i)})-y^{(i)}) \cdot x^{(i)} \\ &\} \end{aligned} \tag3$
对于线性回归的代价函数来说，他总是这样的弓形函数（bow-shaped function），专业名称叫做凸函数（convex function），对于该函数来说，不论初始点在哪里，最后都可以保证收敛到同一个全局最优点，因为该函数只有一个全局最优点，无局部最优点

接下来看看如何一步步优化到全局最优点

首先我们从 $\theta_0=900,\theta_1=-0.1$ 开始，此时假设函数为 $h (x) = - 900 - 0.1 x$ ：

对其应用一次后梯度下降算法后，可以看到我们的假设函数发生了一点变化

然后不断应用梯度下降算法，直到我们下降到收敛点（中心的点），其路线如右图所示：

Hydrion-Qlz

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
将梯度下降算法应用到线性回归中的数学推导及图示

文章目录线性回归和梯度下降的形式表达应用计算线性回归和梯度下降的形式表达线性回归：假设函数hθ(x)=θ0+θ1x(1)h_\theta (x)=\theta_0+\theta_1x \tag1hθ(x)=θ0+θ1x(1)代价函数J(θ)=12m∑i=1m(hθ(x(i))−y(i))2(2)J(\theta)=\frac {1} {2m} \sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2 \tag2J(θ)=2m1i=1∑m(hθ(x(.
复制链接

扫一扫