往梯度的反方向移动,也就是去减梯度就能使值减下,从而降低loss。从一维损失函数可以推导出,同时联想二维损失函数,多维的几何表示也想不到。理论上推广应该没有问题,但是其实不一定总是准确的,历史上一直是研究深度学习的问题来源。优化器有很多种,主要是两种RMSProp,和有动量的随机梯度下降(SGD)。权重张量是该层的属性,里面包含了网络所学习到的知识。本书的重点不再数学推导,在于实际的应用,但是反向传导确实没有讲清楚,需要自己再看一看* 反向传播、优化器 优化器中考虑动量的,我看了看也没有看得特别明白 多元函数微积分 也需要补一下,尤其对偏分多一点知识掌握