1.小实战 模型可视化 2. 损失函数 交叉熵 详细: 3.反向传播 计算每个节点的参数,有了参数的梯度,就可以选取合适的优化器,以达到整体误差减小的作用。 4.优化器 构造优化器 调用优化器step方法(利用梯度进行更新) step利用grad对参数进行更新。(但是参数比较小,所以变化不会很大)循环往复,使得loss变小。 该循环只是对数据进行一轮学习,因此在循环外再套一层循环: