1.Softmax函数的形式。见图一
2.通过 softmax 函数,可以使得 P(i) 的范围在 [0,1] 之间。在回归和分类问题中,通常theta是待求参数,通过寻找使得P(i)最大的theta_i 作为最佳参数。
3.Softmax 函数加入了e的幂函数正是为了两极化:正样本的结果将趋近于 1,而负 样本的结果趋近于 0。这样为多类别提供了方便(可以把 P(i) 看做是样本属于类别i的概 率)。可以说,Softmax 函数是 logistic 函数的一种泛化。
3.Softmax 函数可以把它的输入,通常被称为 logits 或者 logit scores,处理成 0 到 1 之间,并 且能够把输出归一化到和为 1。这意味着 softmax 函数与分类的概率分布等价。它是一个网络预测多分类问题的最佳输出激活函数。
4.假设我们有一个数组, 经过输入层输入后,通过两个特征层处理,最后通过 softmax 分析器 就能得到不同条件下的概率,这里需要分成三个类别,最终会得到 y=0, y=1, y=2 的概率值。
5.Softmax 直白来说就是将原来输出是 3,1,-3 通过 softmax 函数一作用,就映射成为 (0,1) 的值,而这些值的累和为 1 (满足概率的性质),那么我们就可以将它理解成概率,在最后选取输出结点的时候,我们就可以选取概率最大(也就是值对应最大的)结点,作为我们的预测目标!