softmax激活函数的作用是概率和保证为1,交叉熵公式定义如下
原熵代表随机变量不确定度。q是实际概率分布,ONE-HOT方式;p是期望概率分布,sofmax输出。交叉熵越小越好,代表两概率分布越接近。
......公式推导
采用梯度下降法:
下面链接我只是记录一下学习,如有侵犯原作者立删。
原链接:为什么是SoftMax? - 知乎 (zhihu.com)公式有点问题
公式推导正确链接:Softmax公式推导 - 知乎 (zhihu.com)
softmax激活函数的作用是概率和保证为1,交叉熵公式定义如下
原熵代表随机变量不确定度。q是实际概率分布,ONE-HOT方式;p是期望概率分布,sofmax输出。交叉熵越小越好,代表两概率分布越接近。
......公式推导
采用梯度下降法:
下面链接我只是记录一下学习,如有侵犯原作者立删。
原链接:为什么是SoftMax? - 知乎 (zhihu.com)公式有点问题
公式推导正确链接:Softmax公式推导 - 知乎 (zhihu.com)