1、为什么是“负梯度方向”
因为梯度>0是递增函数,我们要找到损失函数的最小值,需要递减方向
2、为什么需要激活函数
如果没有激活函数,即使有多层的预测也会回归到同一个公式(类似于没用),所以需要激活,让其多层函数时无法结合同类项
3、反向传播的作用
反向更新求到了梯度,因为我们梯度更新就是要用这个梯度
4、Tensor包含什么
5、Linear的输入输出维度确定
6、二分类的交叉熵损失BCELoss,多分类的交叉熵损失CrossEntropyLoss。当使用CrossEntropyLoss时,最后一层不需要激活,因为CrossEntropyLoss包括了激活函数softmax