随机梯度下降算法及最优步长相关公式推导

最新推荐文章于 2024-06-18 17:00:00 发布

蓬某某

最新推荐文章于 2024-06-18 17:00:00 发布

阅读量3.7k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/wang_yunpeng/article/details/103423385

版权

机器学习专栏收录该内容

10 篇文章 1 订阅

订阅专栏

返回目录
运用批量梯度下降法(BGD)，每次迭代需要对所有训练集进行运算。
随机梯度下降法(SGD)则每次只对一次数据集进行运算。
小批量梯度下降法(MBGD)则每次对一组数据集进行运算。
1. 批量梯度下降法(BGD)
代价函数：
$J(\vec{\theta})=\frac{1}{2m}\sum_{i=1}^{m}( \vec{\theta}^T\vec{x}^{(i)}-y^{(i)})^2$
更新：
$\theta_j := \theta_j-\alpha\frac{1}{m}\sum_{i=1}^{m}( \vec{\theta}^T\vec{x}^{(i)}-y^{(i)})\vec{x}_j^{(i)}$
2. 随机梯度下降法(SGD)
每次更新使用当次输入的数据进行 $\theta$ 的更新。
代价函数则是所有已经测试过的数据误差平方之和。
代价函数：
$J(\vec{\theta})=\frac{1}{2k}\sum_{i=1}^{k}( \vec{\theta}^T\vec{x}^{(i)}-y^{(i)})^2$
更新：
$\theta_j := \theta_j-\alpha\frac{1}{m}( \vec{\theta}^T\vec{x}^k-y)\vec{x}^k_j$
3. 小批量梯度下降法(MBGD)
每次更新使用当次输入的一组数据进行 $\theta$ 的更新。
代价函数则是所有已经测试过的数据误差平方之和。
代价函数：
$J(\vec{\theta})=\frac{1}{2t}\sum_{i=1}^{t}( \vec{\theta}^T\vec{p}^{(i)}-q^{(i)})^2$
更新：
$\theta_j := \theta_j-\alpha\frac{1}{m}\sum_{i=1}^{k}( \vec{\theta}^T\vec{s}^{(i)}-v^{(i)})\vec{s}_j^{(i)}$
其中：
$\begin{aligned} S=\begin{pmatrix}\vec{s}^{(1)} \\ \vec{s}^{(2)} \\ ... \\ \vec{s}^{(k)}\end{pmatrix}=\begin{pmatrix}\vec{x}^{(i_1)} \\ \vec{x}^{(i_2)} \\ ... \\ \vec{x}^{(i_k)}\end{pmatrix} , &V=\begin{pmatrix}v^{(1)} \\ v^{(2)} \\ ... \\ v^{(k)}\end{pmatrix}=\begin{pmatrix}y^{(i_1)} \\ y^{(i_2)} \\ ... \\ y^{(i_k)}\end{pmatrix} \\ P=\begin{pmatrix}\vec{p}^{(1)} \\ \vec{p}^{(2)} \\ ... \\ \vec{p}^{(t)}\end{pmatrix}=S_1\bigcup S_2...\bigcup S_r , &Q=\begin{pmatrix}q^{(1)} \\ q^{(2)} \\ ... \\ q^{(t)}\end{pmatrix}=V_1\bigcup V_2...\bigcup V_r\\ 其中 i_1,i_2,...,i_k\in[1,m],r为更新次数 \end{aligned}$
即是说， $S$ 和 $V$ 是从测试集 $X$ 和 $y$ 中抽取出来的 $k$ 行， $P$ 和 $Q$ 是所有输入过的测试集的并集。
4. 最优步长推导
下面针对一般形式MBGD做以下推导：
$\begin{aligned} \widehat{\theta_j}&= \theta_j-\alpha\frac{1}{m}\sum_{i=1}^{k}( \vec{\theta}^T\vec{s}^{(i)}-v^{(i)})\vec{s}_j^{(i)} \\ &= \theta_j-\frac{\alpha}{m} \begin{pmatrix} {\vec{s}^{(1)}}^T\vec{\theta}-v^{(1)} & {\vec{s}^{(2)}}^T\vec{\theta}-v^{(2)} &...&{\vec{s}^{(k)}}^T\vec{\theta}-v^{(k)} \end{pmatrix} \begin{pmatrix} \vec{s}_j^{(1)} \\ \vec{s}_j^{(2)} \\...\\ \vec{s}_j^{(k)} \end{pmatrix} \\ &= \theta_j-\frac{\alpha}{m} \begin{pmatrix} {\vec{s}^{(1)}}^T\vec{\theta}-v^{(1)} \\ {\vec{s}^{(2)}}^T\vec{\theta}-v^{(2)} \\...\\{\vec{s}^{(k)}}^T\vec{\theta}-v^{(k)} \end{pmatrix}^TS_j\\ &= \theta_j-\frac{\alpha}{m} (S\vec{\theta}-V)^TS_j \end{aligned}$
有：
$\begin{pmatrix} \widehat{\theta_1} \\ \widehat{\theta_2} \\ ...\\ \widehat{\theta_n} \\ \end{pmatrix}^T \ = \begin{pmatrix} \theta_1\\ \theta_2\\ ...\\ \theta_n\\ \end{pmatrix}^T -\frac{\alpha}{m}(S\vec{\theta}-V)^T \begin{pmatrix} S_1&S_2&...&S_n \end{pmatrix}$
即：
$\vec{\widehat{\theta}}= \vec{\theta}-\frac{\alpha}{m}S^T(S\vec{\theta}-V)$
带入 $J(\theta)$ 得：
$J(\vec{\widehat{\theta}})=\frac{1}{2t}\sum_{i=1}^{t}( \vec{\widehat{\theta}}^T\vec{p}^{(i)}-q^{(i)})^2$
要找到 $\alpha$ 使得 $J(\vec{\widehat{\theta}})$ 最小。对 $J(\vec{\widehat{\theta}})$ 关于 $\alpha$ 求导：
$\begin{aligned} \frac{d J(\vec{\widehat{\theta}})}{d{\alpha}}&=-\frac{1}{t^2}\sum_{i=1}^{t}( {\vec{p}^{(i)}}^T\vec{\widehat{\theta}}-q^{(i)}){\vec{p}^{(i)}}^TS^T(S\vec{\theta}-V) \\ &=-\frac{1}{t^2}(P\vec{\widehat{\theta}}-Q)^TPS^T(S\vec{\theta}-V)\\ &=-\frac{1}{t^2}(P(\vec{\theta}-\frac{\alpha}{m}S^T(S\vec{\theta}-V))-Q)^TPS^T(S\vec{\theta}-V) \end{aligned}$
令 $U=S^T(S\vec{\theta}-V)$ ，则：
$\begin{aligned} \frac{d J(\vec{\widehat{\theta}})}{d{\alpha}} &=-\frac{1}{t^2}(P(\vec{\theta}-\frac{\alpha}{m}U)-Q)^TPU\\ &=-\frac{1}{t^2}((P\vec{\theta})^T(PU)-\frac{\alpha}{t}(PU)^T(PU)-Q^T(PU)) \end{aligned}$
再次对 $\alpha$ 求导，有：
$\frac{d ^2J(\vec{\widehat{\theta}})}{d{\alpha}^2} =\frac{1}{t^3}(PU)^T(PU)>=0$
所以当 $\frac{dJ(\vec{\widehat{\theta}})}{d{\alpha}} =0$ 时， $J(\vec{\widehat{\theta}})$ 得到最小值，记此时的解为 $\alpha ^*$ 。
有：
$(P\vec{\theta})^T(PU)-\frac{\alpha ^*}{t}(PU)^T(PU)-Q^T(PU)=0$
解得：
$\begin{aligned} \alpha^*=\frac{t(PU)^T(P\vec{\theta}-Q)}{(PU)^T(PU)} \\ 其中：U=S^T(S\vec{\theta}-V) \end{aligned}$
代入得到梯度下降更新表达式：
$\vec{{\theta}}:= \vec{\theta}-\frac{(PU)^T(P\vec{\theta}-Q)}{(PU)^T(PU)} U\\ 其中：U=S^T(S\vec{\theta}-V)$
表达式说明，每次迭代我们都可以找到一个最优步长使得梯度下降最快。
当使用BGD时： $P = S = X, Q = V = y$ 。
经测试使用 $\alpha = 0.001$ 时，迭代500次没有达到阈值范围内，使用最优步长只需6次就能达到阈值。
从表达式可以看出计算最优步长时计算量大，使用固定步长仍是一个好用的算法。

返回目录

蓬某某

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
随机梯度下降算法及最优步长相关公式推导

返回目录运用批量梯度下降法(BGD)，每次迭代需要对所有训练集进行运算。随机梯度下降法(SGD)则每次只对一次数据集进行运算。代价函数：J(θ⃗)=12m∑i=1i=m(θ⃗Tx⃗(i)−y(i))2J(\vec{\theta})=\frac{1}{2m}\sum_{i=1}^{i=m}( \vec{\theta}^T\vec{x}^{(i)}-y^{(i)})^2J(θ)=2m1i=...
复制链接

扫一扫

专栏目录