文章目录
前言
1 优化的目标
2 深度学习中的优化挑战
2.1 鞍积分
2.2 消失渐变
3 凸性
3.1 convex set
3.2 凸函数
4 局部极小值是全局极小值
5 约束
6 总结
参考
前言
一、什么是优化器
优化器或者优化算法,是通过训练优化参数,来最小化(最大化)损失函数。
损失函数是用来计算测试集中目标值Y的真实值和预测值的偏差程度。
为了使模型输出逼近或达到最优值,我们需要用各种优化策略和算法,来更新和计算影响模型训练和模型输出的网络参数。
二、优化算法类别
一阶优化算法
这种算法使用各参数的梯度值来最小化或最大化损失函数E(x)。最常用的一阶优化算法是梯度下降。
函数梯度:导数dy/dx的多变量表达式,用来表示y相对于x的瞬时变化率。往往为了计算多变量函数的导数时,会用梯度取代导数,并使用偏导数来计算梯度。梯度和导数之间的一个主要区别是函数的梯度形成了一个多维变量。因此,对单变量函数,使用导数来分析;而梯度是基于多变量函数而产生的。
二阶优化算法
二阶优化算法使用了二阶导数(也叫做Hessian方法)来最小化或最大化损失函数。这种方法是二阶收敛,收敛速度快,但是由于二阶导数的计算成本很高,所以这种方法并没有广泛使用。
主要算法:牛顿法和拟牛顿法(Newton's method & Quasi-Newton Methods)
1 优化的目标
优化提供了一种最大限度地减少深度学习损失功能的方法,但实质上,优化和深度学习的目标是根本不同的。前者主要关注的是尽量减少一个目标,而鉴于数据量有限,后者则关注寻找合适的模型。例如,训练错误和泛化错误通常不同:由于优化算法的客观函数通常是基于训练数据集的损失函数,因此优化的目标是减少训练错误。但是,深度学习(或更广义地说,统计推断)的目标是减少概括错误。为了完成后者,除了使用优化算法来减少训练错误之外,我们还需要注意过度拟合。
def f(x):
return x * torch.cos(np.pi * x)
def g(x):
return f(x) + 0.2 * torch.cos(5 * np.pi * x)
下图说明,训练数据集的最低经验风险可能与最低风险(概括错误)不同。
def annotate(text, xy, xytext): #@save
d2l.plt.gca().annotate(text, xy=xy, xytext=xytext,
arrowprops=dict(arrowstyle='->'))
x = torch.arange(0.5, 1.5, 0.01)
d2l.set_figsize((4.5, 2.5))
d2l.