【ML】- 001 线性回归01-梯度下降法基础理论

最新推荐文章于 2024-09-23 18:22:20 发布

Encarta1993

最新推荐文章于 2024-09-23 18:22:20 发布

阅读量144

点赞数

分类专栏： machine learning 文章标签：机器学习算法线性代数

本文链接：https://blog.csdn.net/u014147522/article/details/107308787

版权

machine learning 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

基础理论-数学推导

数据集
给定数据集 $\{(x^{(1)}, y^{(1)}), (x^{(2)}, y^{(2)}), \cdots, (x^{(m)}, y^{(m)})\}$ ，其中 $x^{(i)} = \{x_1^{(i)}, x_2^{(i)}, \cdots, x_n^{(i)}\}$ ， $y^{(i)} \in R$ 。
待拟合的函数(线性函数)

$\begin{aligned} h_{\theta} (x^{(i)}) &= \theta_0 + \theta_1 x_1^{(i)} + \theta_2 x_2^{(i)} + \cdots + \theta_n x_n^{(i)} \\ &= \sum_{j=0}^{n} \theta_j x_j^{(i)} \\ &= \theta^T x^{(i)} \end{aligned}$

损失函数(目标函数)

$J(\theta) = \frac{1}{2} \sum_{i=1}^{m} \left( h_{\theta} (x^{(i)}) - y^{(i)} \right)^2 \\ \min_{\theta} J(\theta)$

梯度下降法求解
Batch Gradient Descent (m为样本数)
$\begin{aligned} \theta_j &:= \theta_j - \alpha \frac{\partial}{\partial \theta_j} J(\theta) \\ &= \theta_j - \alpha \frac{\partial}{\partial \theta_j} \frac{1}{2} \sum_{i=1}^{m} \left( h_{\theta} (x^{(i)}) - y^{(i)} \right)^2 \\ &= \theta_j - \alpha \sum_{i=1}^{m} \left( h_{\theta} (x^{(i)}) - y^{(i)} \right) \frac{\partial}{\partial \theta_j} \left( h_{\theta} (x^{(i)}) - y^{(i)} \right) \\ &= \theta_j - \alpha \sum_{i=1}^{m} \left( h_{\theta} (x^{(i)}) - y^{(i)} \right) x_j^{(i)} \end{aligned}$
Stochastic Gradient Descent (随机取一个样本)
$\begin{aligned} \theta_j &:= \theta_j - \alpha \frac{\partial}{\partial \theta_j} J(\theta) \\ &= \theta_j - \alpha \frac{\partial}{\partial \theta_j} \frac{1}{2} \left( h_{\theta} (x^{(i)}) - y^{(i)} \right)^2 \\ &= \theta_j - \alpha \left( h_{\theta} (x^{(i)}) - y^{(i)} \right) \frac{\partial}{\partial \theta_j} \left( h_{\theta} (x^{(i)}) - y^{(i)} \right) \\ &= \theta_j - \alpha \left( h_{\theta} (x^{(i)}) - y^{(i)} \right) x_j^{(i)} \end{aligned}$
mini-batch Stochastic Gradient Descent (b为batch size)
$\begin{aligned} \theta_j &:= \theta_j - \alpha \frac{\partial}{\partial \theta_j} J(\theta) \\ &= \theta_j - \alpha \frac{\partial}{\partial \theta_j} \frac{1}{2} \sum_{i=1}^{b} \left( h_{\theta} (x^{(i)}) - y^{(i)} \right)^2 \\ &= \theta_j - \alpha \sum_{i=1}^{b} \left( h_{\theta} (x^{(i)}) - y^{(i)} \right) \frac{\partial}{\partial \theta_j} \left( h_{\theta} (x^{(i)}) - y^{(i)} \right) \\ &= \theta_j - \alpha \sum_{i=1}^{b} \left( h_{\theta} (x^{(i)}) - y^{(i)} \right) x_j^{(i)} \end{aligned}$
三种梯度下降算法对比：