第6章与学习相关的技巧

最新推荐文章于 2023-01-18 20:06:47 发布

TigaFeng

最新推荐文章于 2023-01-18 20:06:47 发布

阅读量169

点赞数

分类专栏：深度学习入门笔记(鱼书)

本文链接：https://blog.csdn.net/TigaFeng/article/details/109283732

版权

本文深入探讨了深度学习中的参数更新方法，包括SGD、Momentum、AdaGrad和Adam优化器。此外，还讨论了权重初始化的重要性和不同策略，如避免全零初始值和使用ReLU的He初始化。同时，提到了Batch Normalization的作用和正则化技术，如权值衰减和Dropout，以防止过拟合。最后，强调了超参数验证在模型性能优化中的关键角色。

摘要由CSDN通过智能技术生成

6.1 参数的更新

神经网络的学习的目的是找到使损失函数的值尽可能小的参数。这是寻找最优参数的问题，解决这个问题的过程称为最优化。

SGD

使用参数的梯度，沿梯度方向更新参数，并重复这个步骤多次，从而逐渐靠近最优参数。

数学公式：

$\leftarrow W-\eta\frac{\partial L}{\partial W}$

代码：

class SGD:
	def __init__(self, lr = 0.01):
		self.lr = lr
	def update(self, params, grads):
		for key in params.keys():
			params[key] -= self.lr * grads[key]

SGD缺点：

如果函数的形状非均向，搜索路径就会非常抵消

SGD低效的根本原因，梯度的方向并没有指向最小值的方向。

6.1.4 Momentum

动量梯度下降法讲解
数学式表达:

$\leftarrow \alpha v - \eta \frac{\partial L}{\partial W} \\ W \leftarrow W + v$

式中。v表示速度， $\leq \alpha < 1$ ，当 $\alpha$ 等于0 时，动量法等价于小批量随机梯度下降。

class Momentum:
	def __init__(self, lr = 0.01, momentum = 0.9):
		self.lr = lr
		self.momentum = momentum
		self.v = None
	def update(self, params, grads):
		# 初始化
		if self.v is None:
			self.v = {
   }
			for key, val in params.items():
				self.v[key] = np.zeros_like(val)
			
			# 对应上面的公式
			for key in params.keys():
				self.v[key] = self.momentum*self.v[key] - self.lr * grads[key]
				params[key] += self.v[key]

6.1.5 AdaGrad

学习率衰减: 随着学习的进行，使学习率逐渐减小。

AdaGrad:会为参加的每个元素适当地调增学习率

数学公式：
$\leftarrow h + \frac{\partial L}{\partial W} \bigodot \frac{\partial L}{\partial W} \\ W \leftarrow W-\eta \frac{1}{\sqrt{h}} \frac{\partial L}{\partial W}$

最低0.47元/天解锁文章

TigaFeng

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第6章与学习相关的技巧

6.1 参数的更新神经网络的学习的目的是找到使损失函数的值尽可能小的参数。这是寻找最优参数的问题，解决这个问题的过程称为最优化。SGD使用参数的梯度，沿梯度方向更新参数，并重复这个步骤多次，从而逐渐靠近最优参数。数学公式：W←W−η∂L∂WW \leftarrow W-\eta\frac{\partial L}{\partial W}W←W−η∂W∂L代码：class SGD: def __init__(self, lr = 0.01): self.lr = lr def updat
复制链接

扫一扫