注意看黄色部分,在网络的中后段,直接加入了分类引入梯度。这样能避免离末尾softmax较远的层,难以训练的问题。
模块化结构便于增添修改
实际测试时,2个额外的softmax会被去掉
注意看黄色部分,在网络的中后段,直接加入了分类引入梯度。这样能避免离末尾softmax较远的层,难以训练的问题。
模块化结构便于增添修改
实际测试时,2个额外的softmax会被去掉
转载于:https://www.cnblogs.com/mimandehuanxue/p/8993886.html