线性回归
平方损失定义:
前有一个1/2是因为在求导时可以消去。
线性回归可以看作是单层的神经网络模型。
基础优化算法
梯度下降
(1)学习率
是学习率,属于超参数,需要人为指定
太小会导致算法计算量过大且易陷入局部最优(个人理解)
太大会导致很难收敛(个人理解)
(2)小批量梯度下降
一般使用的方法为小批量梯度下降,即选取原始数据中的一小部分计算损失函数。小批量的大小b也是一个超参数。(计算所有原始数据梯度的计算量过大)
小批量梯度下降一般是深度学习默认算法,优点:稳定简便