1.softmax函数
任何数,当其通过softmax函数后,便映射到(0,1)上,我们可以视之为概率
等同于一个简单的映射,其中隐含层等同于一个全连接层。
其中多分类,即选取输出向量中概率最大的前k个
2.相关求导
梯度下降:每次优化一个step大小的梯度,
1.softmax函数
任何数,当其通过softmax函数后,便映射到(0,1)上,我们可以视之为概率
等同于一个简单的映射,其中隐含层等同于一个全连接层。
其中多分类,即选取输出向量中概率最大的前k个
2.相关求导
梯度下降:每次优化一个step大小的梯度,