复杂度: 学习率:先通过较大的学习率初步找到最优值,再去寻找小的学习率。 指数衰减学习率: 激活函数: 图中的非线性函数就是激活函数: 常用的激活函数: 损失函数(class2-p19,p20): 交叉熵:判断哪个与预测结果更接近:(2:p22) 函数:先softmax,再与交叉熵结合(2:p23) 欠拟合:对当前数据集拟合的不够好 过拟合:对当前数据集拟合的太好,对新数据没有处理能力 缓解过拟合:正则化(c2:p29) 优化器:引导神经网络更新参数。(c2:p32) SGD优化器: 优化器使用的位置,优化器代码的位置: 从下图可以看出,是在进行参数更新时进行的,不是直接的进行梯度与学习率的相乘,而是进行除以一个通过优化器奇迹算出来的一个值。 SGDM(p34) Adagrad: RMsprop Adam