多分类任务下,为什么使用softmax?
事实上,我们最需要的是 max{x1,x2,x3} m a x { x 1 , x 2 , x 3 } ,该函数可以直接得到分类。但问题在于 max m a x 函数不可导,所以就有人设计出了softmax函数
- software函数对于特征对概率的影响是乘性的,即其也满足最后输出越大,概率越大的结果。
- 我们的目标函数经常是交叉熵函数
L=−∑ktklogP(y=k) L = − ∑ k t k l o g P ( y = k )使用这个目标函数,乘法变加法,运算简单。
万能近似定理:一个前馈神经网络如果具有一线性输出宠和至少一层具有一种“挤压”性质的激活函数(如Sigmoid激活函数)的隐藏层,只要给予网络足够数量的隐藏单元,它可以以任意的精度来近似任何函数。
反向传播算法和优化算法的关系?
反向传播用于计算梯度,而优化算法(如随机梯度下降)用于使用得到的梯度来进行学习。