基础优化算法 梯度下降时,为什么减去学习率乘梯度,梯度是上升最快的方向吗 梯度确实指向损失函数增长最快的方向吗,如果是负数不是减少最快的方向吗 小批量随机梯度下降 线性回归的从零开始实现 yield关键字 返回返回一个迭代器对象 定义优化算法代码解析,即参数的更新 !!!将梯度除以批量大小是为了对梯度进行标准化,不受批量大小的影响 backward()的作用域(计算图)和torch.no_grad()的作用(节省内存和开销) 每个batch size就更新一次梯度,epoch的作用 线性回归的简单实现 这里的_就地操作,net[0].weight.data.normal_(0,0.01)与net[0].bias.data.fill_(0) 训练代码解析 trainer.zero_grad()和 trainer.step()分别干了什么 trainer.zero_grad()为什么是trainer调用,而不是l调用 backward为什么是l调用,损失张量是计算图的最终输出 QA 随机梯度下降的随机是指 一个知识点——学习率衰减,问题不大 每个batch计算的时候,记得把剃度先清零