学习率优化（一）

最新推荐文章于 2024-07-28 08:00:00 发布

送你上西天

最新推荐文章于 2024-07-28 08:00:00 发布

阅读量1.7k

点赞数

分类专栏：人工神经网络文章标签：学习率优化

本文链接：https://blog.csdn.net/weixin_28750267/article/details/81079475

版权

人工神经网络专栏收录该内容

3 篇文章 0 订阅

订阅专栏

上节介绍了反向传播时权值更新方法，更新隐含层： $\omega _{ho}^{N+1}=\omega _{ho}^{N}-\eta\frac{\partial e}{\partial \omega _{ho}^{N+1}}$ ；更新输出层： $\omega _{ih}^{N+1}=\omega _{ih}^{N}-\eta\frac{\partial e}{\partial \omega _{ih}^{N+1}}$ 。看似已经完美的解决了问题，但是 $\eta$ 怎么取值呢？

我们把问题转化到求二次函数极值问题，例如 $f(x)=x^{2}$ ，如果用梯度下降法求函数极值，每一次的取值为 $x^{n+1}=x^{n}-\eta \frac{\partial f(x)}{\partial x}$ ，一步步趋近极小值。

如果采用固定学习率： $f(x)=x^{2}$ ，初始值取 x=1.5 ，学习率使用0.01：

分析：经过200次迭代， x=0.0258543 ；经过1000次迭代， $x=2.52445\times 10^{-9}$ ；

效果还可以，但这个学习率只使用于 $f(x)=x^{2}$ ，如果改变函数还可以这个效果吗？还采用学习率0.01， $f(x)=x^{4}$ ，初始值取： x=1.5

分析：经过200次迭代， x=0.24436 ；经过1000次迭代， x=0.111275 ；效果不好，学习率不再适用。附上固定学习率的python代码：

import matplotlib.pyplot as plt

def g(x): 
	return 4.0*x**3
def f(x):
	return x**4

if __name__ == '__main__':
	x =1.5
	a = 0.01
	# 固定学习率
	for i in range(1000):
		d = g(x)
		x -= d * a
		if i == 200:
			print(x)
		plt.scatter(i,x)
	print(x)
	plt.show()

回溯线性搜索：

基于Armijo准则计算搜素方向上的最大步长，其基本思想是沿着搜索方向移动一个较大的步长估计值，然后以迭代形式不断缩减步长，直到该步长使得函数值 $f(x_{k}+\alpha d_{k})$ 相对与当前函数值 $f(x_{k})$ 的减小程度大于预设的期望值(即满足Armijo准则)为止。

$f(x_{k}+\alpha d_{k})< f(x_{k})+c_{1}\alpha \triangledown f(x_{k})^{T}d_{k}$

意思就是说， $f(x_{k})$ 按学习率缩小一次后得到新值 $f(x_{k+1})=f(x_{k}+\alpha d_{k})$ ，如果 $f(x_{k+1})$ 设定为我们的期望值，如果经过学习 $\eta$ 后可以达到 $f(x_{k+1})$ ，那么这个学习率就是符合要求的学习率； $f(x_{k+1})<=f(x_{k})+c_{1}\alpha \triangledown f(x_{k})^{T}d_{k}$ 。

分析：经过12次迭代后， x=0.0001035 ，经过1000次迭代后 $x=3.4222\times 10^{-6}$ ，效果不错。

import matplotlib.pyplot as plt

def g(x): 
	return 4.0*x**3
def f(x):
	return x**4

def armijo(x,d,a):
	c1 = 0.3
	now = f(x)
	next = f(x - a*d)

	count =30
	while next < now:
		a *= 2
		next = f(x - a*d)
		count-=1
		if count == 0:
			break
	count = 50
	while next > now-c1*a*d*d:
		a /=2
		next = f(x - a*d)
		count -=1
		if count == 0:
			break
	return a

if __name__ == '__main__':
	x =1.5
	a = 0.01

	#回溯线性搜索
	for i in range(1000):
		d = g(x)
		a1 = armijo(x,d,a)
		x -= d * a1
		if i == 12:
			print(x,a1)
		plt.scatter(i,x)
	print(x,a1)
	plt.show()

二次插值法：

如上述代码，第一个循环，如果沿负梯度方向下降微小的值， $f(x_{k+1})<f(x_{k}))$ 会恒成立，但我们每一次都增大学习率，当某一次步子迈的太大，就会不满足，Armijo准则则是再减小学习率，那么二次插值法则是构造一个二次近似函数： $h_{q}(\alpha )=\frac{h(\alpha _{0})-h^{'}(0)\alpha _{0}-h(0) }{\alpha _{0}^{2}}\alpha ^{2}+h^{'}(0)\alpha _{0}+h(0)$ ；那么导数为0的最优值为： $\alpha_{1} =\frac{h^{'}(0)\alpha _{0}^{2} }{2[h^{'}(0)\alpha_{0}+h(0)-h(\alpha _{0})]}$ ，若 $\alpha _{1}$ 满足Armijo准则，则输出该学习率，否则继续迭代。

分析，经过12次迭代 x=0.0003169 ，，经过1000次迭代， $x=3.426001\times 10^{-6}$ ，效果和回溯法差不多，么有提升。

import matplotlib.pyplot as plt

def g(x): 
	return 4.0*x**3
def f(x):
	return x**4

def getA_quad(x,d,a):
	c1 = 0.3
	now = f(x)
	next = f(x - a*d)

	count =30
	while next < now:
		a *= 2
		next = f(x - a*d)
		count-=1
		if count == 0:
			break
	count = 50
	while next > now-c1*a*d*d:
		b=d*a*a/(now+d*a-next)
		b /=2
		if b<0:
			a /=2
		else:
			a = b
		next = f(x - a*d)
		count -=1
		if count == 0:
			break
	return a
if __name__ == '__main__':
	x =1.5
	a = 0.01
	
	#插值法
	for i in range(1000):
		d = g(x)
		a1 = getA_quad(x, d, a)
		x -= d * a1
		if i == 12:
			print(x)
		plt.scatter(i, x)
	print(x)
	plt.show()

总结：

[一阶方法] 随机梯度

SGD(Stochastic Gradient Descent)是相对于BGD(Batch Gradient Descent)而生的。BGD要求每次正反向传播，计算所有Examples的Error，这在大数据情况下是不现实的。最初的使用的SGD，每次正反向传播，只计算一个Example，串行太明显，硬件利用率不高。后续SGD衍生出Mini-Batch Gradient Descent，每次大概推进100个Example，介于BGD和SGD之间。现在，SGD通常是指Mini-Batch方法，而不是早期单Example的方法。

一次梯度更新，可视为： $x_{t+1}=x_{t}+\triangle x_{t} \, \, where \, \, \triangle x_{t}=-\eta g_{t}$ ；