DL之DNN优化技术:神经网络算法简介之GD/SGD算法的简介、代码实现、代码调参之详细攻略
目录
GD算法的简介
GD/SGD算法的代码实现
1、Matlab编程实现
GD算法的改进算法
GD算法中的超参数
GD算法的简介
GD算法,是求解非线性无约束优化问题的基本方法,最小化损失函数的一种常用的一阶优化方法。如图所示,找出最陡峭的方向作为下山的方向。
![9ffb43d328cb5010cf1900e38d172acc.png](https://i-blog.csdnimg.cn/blog_migrate/23e850adece8a514171271ae4284a7bd.jpeg)
![2d5120cb058ccd7ba46cafbd3314244a.png](https://i-blog.csdnimg.cn/blog_migrate/c83c40b6dac02b8ef98f9c7bde6abec1.png)
![e1b8ba5da396f9209da7f9a8b0f898d9.png](https://i-blog.csdnimg.cn/blog_migrate/d3cd75c28169715f69eb055905bfde3d.jpeg)
![2d5120cb058ccd7ba46cafbd3314244a.png](https://i-blog.csdnimg.cn/blog_migrate/c83c40b6dac02b8ef98f9c7bde6abec1.png)
1、如何求梯度?
沿着梯度方向,函数值下降最快。
![16dfc702a5d0dc3a5a5a0bc4b52fdaa9.png](https://i-blog.csdnimg.cn/blog_migrate/ad58b3a107f7545987f2d84e7b9b0358.jpeg)
![2d5120cb058ccd7ba46cafbd3314244a.png](https://i-blog.csdnimg.cn/blog_migrate/c83c40b6dac02b8ef98f9c7bde6abec1.png)
2、二元曲面
具有两个输入权重的线性神经元的误差曲面,Error surface of a linear neuron with two input weights
![afa823f5397151b59ab5369a0cd8c759.png](https://i-blog.csdnimg.cn/blog_migrate/a160d55891fda47cb2f09211e513d96f.jpeg)
![2d5120cb058ccd7ba46cafbd3314244a.png](https://i-blog.csdnimg.cn/blog_migrate/c83c40b6dac02b8ef98f9c7bde6abec1.png)
3、GD算法容易陷入局部最小值
![45b69e4b2604177a784b9c2f3c6878db.png](https://i-blog.csdnimg.cn/blog_migrate/5372ae32065cd06f350c193226fae6cb.png)
![2d5120cb058ccd7ba46cafbd3314244a.png](https://i-blog.csdnimg.cn/blog_migrate/c83c40b6dac02b8ef98f9c7bde6abec1.png)
GD/SGD算法的代码实现
1、Matlab编程实现
%% 最速下降法图示 % 设置步长为0.1,f_change为改变前后的y值变化,仅设置了一个退出条件。 syms x;f=x^2; step=0.1;x=2;k=0; %设置步长,初始值,迭代记录数 f_change=x^2; %初始化差值 f_current=x^2; %计算当前函数值 ezplot(@(x,f)f-x.^2) %画出函数图像 axis([-2,2,-0.2,3]) %固定坐标轴 hold on while f_change>0.000000001 %设置条件,两次计算的值之差小于某个数,跳出循环 x=x-step*2*x; %-2*x为梯度反方向,step为步长,!最速下降法! f_change = f_current - x^2; %计算两次函数值之差 f_current = x^2 ; %重新计算当前的函数值 plot(x,f_current,'ro','markersize',7) %标记当前的位置 drawnow;pause(0.2); k=k+1; end hold off fprintf('在迭代%d次后找到函数最小值为%e,对应的x值为%en',k,x^2,x)
![2d5120cb058ccd7ba46cafbd3314244a.png](https://i-blog.csdnimg.cn/blog_migrate/c83c40b6dac02b8ef98f9c7bde6abec1.png)
2、基于python实现SGD算法
class SGD: def __init__(self, lr=0.01): self.lr = lr #学习率,实例变量 #update()方法,在SGD中会被反复调用 def update(self, params, grads): for key in params.keys(): params[key] -= self.lr * grads[key] #参数params、grads依旧是字典型变量,按params['W1']、grads['W1']的形式,分别保存了权重参数和它们的梯度。 '伪代码:神经网络的参数的更新' network = TwoLayerNet(...) optimizer = SGD() for i in range(10000): ... x_batch, t_batch = get_mini_batch(...) # mini-batch grads = network.gradient(x_batch, t_batch) params = network.params optimiz
![2d5120cb058ccd7ba46cafbd3314244a.png](https://i-blog.csdnimg.cn/blog_migrate/c83c40b6dac02b8ef98f9c7bde6abec1.png)
GD算法的改进算法
1、SGD算法
(1)、mini-batch
如果不是每拿到一个样本即更改梯度,而是若干个样本的平均梯度作为更新方向,则是mini-batch梯度下降算法。
![c7658fbdb8f2a59427b81a98bc4be96a.png](https://i-blog.csdnimg.cn/blog_migrate/2803f9cbc6640b323e5e3ab4209b019b.png)
![2d5120cb058ccd7ba46cafbd3314244a.png](https://i-blog.csdnimg.cn/blog_migrate/c83c40b6dac02b8ef98f9c7bde6abec1.png)
![e95f1007eb9cd22145271523f3b4addb.png](https://i-blog.csdnimg.cn/blog_migrate/9e463aa6c6620cecf11ebb4b92aa0790.png)
![2d5120cb058ccd7ba46cafbd3314244a.png](https://i-blog.csdnimg.cn/blog_migrate/c83c40b6dac02b8ef98f9c7bde6abec1.png)
(1)、SGD与学习率、Rate、Loss
![39dd62b6cc42ff2768a5e01e274a9c57.png](https://i-blog.csdnimg.cn/blog_migrate/7b5d87e2af709aa2c973829357d5d263.jpeg)
![2d5120cb058ccd7ba46cafbd3314244a.png](https://i-blog.csdnimg.cn/blog_migrate/c83c40b6dac02b8ef98f9c7bde6abec1.png)
![017b40d6e02a0c4af529f01646424c0e.png](https://i-blog.csdnimg.cn/blog_migrate/600b84f6afa86c18bf5e2d6555b8bdeb.jpeg)
![2d5120cb058ccd7ba46cafbd3314244a.png](https://i-blog.csdnimg.cn/blog_migrate/c83c40b6dac02b8ef98f9c7bde6abec1.png)
GD算法中的超参数
1、学习率
![6a2228eec9575c0029aa9ee2f9b229c3.png](https://i-blog.csdnimg.cn/blog_migrate/7e5c2a9cce78399e16b197d75039b2a2.jpeg)
![2d5120cb058ccd7ba46cafbd3314244a.png](https://i-blog.csdnimg.cn/blog_migrate/c83c40b6dac02b8ef98f9c7bde6abec1.png)
(1)、固定学习率实验的C代码
![8fa819f9a6acc96f1d5857c56dbe5e6b.png](https://i-blog.csdnimg.cn/blog_migrate/8779f42c471a8d18a1a9d2539e88c751.jpeg)
![2d5120cb058ccd7ba46cafbd3314244a.png](https://i-blog.csdnimg.cn/blog_migrate/c83c40b6dac02b8ef98f9c7bde6abec1.png)
(2)、回溯线性搜索(Backing Line Search)
![4e0246896ff12157dbd92727ac42e6d8.png](https://i-blog.csdnimg.cn/blog_migrate/ea68ca072b78e4fda72987697248781c.png)
![2d5120cb058ccd7ba46cafbd3314244a.png](https://i-blog.csdnimg.cn/blog_migrate/c83c40b6dac02b8ef98f9c7bde6abec1.png)
![3f0e7eeeba8467015ff3d16479ee80d6.png](https://i-blog.csdnimg.cn/blog_migrate/049022e57c5c529d84022910b0c33f81.png)
![2d5120cb058ccd7ba46cafbd3314244a.png](https://i-blog.csdnimg.cn/blog_migrate/c83c40b6dac02b8ef98f9c7bde6abec1.png)
![3e0d63037c5adc6a6a85c8a60d5a83e4.png](https://i-blog.csdnimg.cn/blog_migrate/dd4a0f5411a7a973085a6d63437ad586.png)
![2d5120cb058ccd7ba46cafbd3314244a.png](https://i-blog.csdnimg.cn/blog_migrate/c83c40b6dac02b8ef98f9c7bde6abec1.png)
(3)、二次插值线性搜索:回溯线性搜索的思考——插值法,二次插值法求极值
![a70ee1292adba6528b563cbac4dbdbd3.png](https://i-blog.csdnimg.cn/blog_migrate/b249a918513a7475d499a0f17483fde6.jpeg)
![2d5120cb058ccd7ba46cafbd3314244a.png](https://i-blog.csdnimg.cn/blog_migrate/c83c40b6dac02b8ef98f9c7bde6abec1.png)
![060ebeeb43f8bc17adc0829fc1f013ff.png](https://i-blog.csdnimg.cn/blog_migrate/3b98e8aafc2e80cf20d3317928b72104.png)
![2d5120cb058ccd7ba46cafbd3314244a.png](https://i-blog.csdnimg.cn/blog_migrate/c83c40b6dac02b8ef98f9c7bde6abec1.png)
![4fc5fbce1798b34a40f77a79fb6f1e46.png](https://i-blog.csdnimg.cn/blog_migrate/e790a296b8f1356e3a3d5c66c786e676.png)
![2d5120cb058ccd7ba46cafbd3314244a.png](https://i-blog.csdnimg.cn/blog_migrate/c83c40b6dac02b8ef98f9c7bde6abec1.png)