目录
1.优化与深度学习
对于深度学习问题,我们通常会先定义损失函数。一旦我们有了损失函数,我们就可以使用优化算法来尝试最小化损失。在优化中,损失函数通常被称为优化问题的目标函数。任何最大化问题都可以很容易地转化为最小化问题,只需令目标函数的相反数为新的目标函数即可。
1.1优化与深度学习的关系
由于优化算法的目标函数通常是基于训练数据集的损失函数,因此优化的目标是减少训练误差。但是,深度学习(或更广义地说,统计推断)的目标是减少泛化误差。为了降低泛化误差,除了使用优化算法来减少训练误差之外,我们还需要注意过拟合。
1.2优化在深度学习中的挑战
1.局部最小值
2.鞍点
2.梯度下降和随机梯度下降
2.1一维梯度下降
一维函数的梯度是一个标量,也称导数。
2.2学习率
3.小批量随机梯度下降
在每一次迭代中,梯度下降使用整个训练数据集来计算梯度,因此它有时也被称为批量梯度下降。而随机梯度下降在每次迭代中只随机采样一个样本来计算梯度。我们可以在每轮迭代中随机均匀采样多个样本来组成一个小批量,然后使用这个批量来计算梯度,这就是小批量随机梯度下降。