argmax
在经过softmax之后输出的是概率值,此时还不能真正表示最后的结果,再经过argmax函数得到概率最大值的索引,作为输出结果。
softmax之后或之后用argmax都行 softmax不会改变单调性
torch.eq() 返回相同的
模型训练的三种状态
解释train validation test set的意义
如图所示,train set用来训练模型,validation set用来定期检验模型,以在选取模型最好的参数。
而test set往往应用于实际的工作,客户随机抽取数据集中一部分作为test set,为了防止模型训练时造假:将test set用于train set,这样往往可以将模型做的过拟合,使得模型的表现非常好。
regularization
有两个作用:
第一部分是优化损失,提高模型性能。第二部分的是模型的参数的范数,范数越小,参数值也越小,其意义在于提高模型拟合性能的同时降低模型的复杂度,避免过拟合。如图所示,当w4 w5 w6 w7都非常小时,就可以将给定7维的模型降低至2维。
动量
其实是考虑了历史的梯度的方向 而不只考虑本次梯度的方向