如果SoftmaxWithLoss中的label为one-hot形式,求导不需要上述那么麻烦,只需要计算label为1时对应的导数,等价于求其最大后验概率。如果是knowledge distilling中softlabel这种则需要计算所有的label对应的导数
SoftmaxWithLoss反传求导
最新推荐文章于 2022-06-12 22:14:58 发布
如果SoftmaxWithLoss中的label为one-hot形式,求导不需要上述那么麻烦,只需要计算label为1时对应的导数,等价于求其最大后验概率。如果是knowledge distilling中softlabel这种则需要计算所有的label对应的导数