文章转载自Softmax 函数的特点和作用和Logistic 分类器与 softmax分类器，顺便加了一点自己的理解。

Logistic 分类器

分类问题，是机器学习里最基础的问题。
我们从最简单的二分类任务开始考虑，假设我们要分类西瓜是否成熟的话，则对于每一个西瓜来说，就有两种结果： $\lbrace 熟，不熟\rbrace$ 。首先我们必须自己知道如何判断一个西瓜“熟”或者“不熟”，或者是根据颜色，或者是敲打的声音，这是下一步我们将其转成数学的映射关系的基础。
为了建立数学模型，我们必须将这个判断西瓜是否成熟的任务转换成数学关系。假设“熟”对应于数轴上的“1”，不熟对应于数轴上的“0”。下一步我们需要找到两个映射关系 $\phi_1$ ， $\phi_2$ 。

$\phi_1$ 将需要分类的西瓜样本（假设为 $s$ ）映射到一个数轴上， $\phi_1(s)=z$ ；
再使用 $\phi_2(z)$ 将第一个映射的结果映射到标签分类上。

假设分类标记为 $\lbrace 0,1 \rbrace$ ，通常我们会选择这样一个阶跃函数从而建立起第二个映射 $\phi_2$ ：

ϕ 2 (z) = ⎧ ⎩ ⎨ 0, 0.5, 1, z<0 z=0 z>0

$\phi_2(z)= \begin{cases} 0,&\text{z<0}\\ 0.5,&\text{z=0}\\ 1,&\text{z>0}\\ \end{cases}$
但是这样的阶跃函数，由于是不连续的，在计算过程中不可导，因此，一般用一个对数几率函数（logistic function）来替代。需要注意的是， 这种替代并不是唯一的。对数几率函数（logistic function）有这样的形式：

ϕ 2 (z) = 1 1 + e - z

$\phi_2(z)=\frac{1}{1+e^{-z}}$
它的函数图像是这样的：
logistic function

可以看出，在

z z $z$ 大于0时，函数值能够迅速偏向1，而小于0时，则是迅速偏向了0。

softmax函数

对于二分类任务，由于结果只有两种， $\phi_1(x)$ 将样本 $x$ 映射到数轴上。而拓展到多分类任务时，假设有 $n$ 种结果，那么 $\phi_1(x)$ 会映射到一个 $n$ 维向量（ $y=\lbrace c_1,c_2,...,c_n\rbrace$ ）当中。向量中的每一维，都对应着一个可能的分类结果（ $c_i=0$ 或1）。由于结果是互斥的，所以 $y$ 存在以下 $n$ 种形式：

y 1 = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ 10 ⋮ 0 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥, y 2 = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ 01 ⋮ 0 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥, \dots, y n = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ 00 ⋮ 1 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

$y_1= \begin{bmatrix} 1 \\ 0 \\ \vdots\\0\end{bmatrix} , y_2= \begin{bmatrix} 0 \\ 1 \\ \vdots\\0\end{bmatrix},\cdots ,y_n= \begin{bmatrix} 0 \\ 0\\ \vdots\\1\end{bmatrix}$

先看下softmax函数的公式：