神经网络之将二分类问题推广到多分类问题

最新推荐文章于 2024-08-04 12:27:51 发布

lankuohsing

最新推荐文章于 2024-08-04 12:27:51 发布

阅读量4.3k

点赞数 1

分类专栏：理论学习学习笔记文章标签：神经网络人工智能

本文链接：https://blog.csdn.net/thuchina/article/details/80803308

版权

学习笔记同时被 2 个专栏收录

53 篇文章 0 订阅

订阅专栏

理论学习

46 篇文章 1 订阅

订阅专栏

文章目录

- 1. Softmax回归详解

将神经网络应用到多类分类问题中时，输出层的形式不能用logistic函数（sigmoid激活函数），而应该推广到softmax函数。二分类问题与多分类问题的神经网络模型的最大区别就是输出层。因此下面重点讲解softmax函数的原理。

1. Softmax回归详解

在softmax回归中，我们解决的是多分类问题（相对于logistic回归解决的二分类问题），标记 $y$ 可以取 $k$ 个不同的值。对于训练集 $\{(x^{(1)},y^{(1)}),\cdots,(x^{(m)},y^{(m)})\}$ ，我们有 $y^{(j)}\in \{1,2,\cdots,k\}$ 。
对于给定的测试输入 $x$ ，我们想用假设函数针对每一个类别 $j$ 估算出概率值 $P (y = j ∣ x)$ 。因此，我们的假设函数要输出一个 $k$ 维的向量（向量元素的和为1）来表示 $k$ 个估计的概率值。我们采用如下形式的假设函数 $h_{\theta}(x)$ ：
$\begin{aligned} h_{\theta}(x^{(i)})&= \begin{bmatrix} P(y^{(i)}=1|x^{(i)};\theta) \\ P(y^{(i)}=2|x^{(i)};\theta) \\ \vdots \\ P(y^{(i)}=10|x^{(i)};\theta) \end{bmatrix} \\ &=\frac{1}{\sum_{j=1}^ke^{\theta_j^Tx^{(i)}}} \begin{bmatrix} e^{\theta_1^Tx^{(i)}} \\ e^{\theta_2^Tx^{(i)}} \\ \vdots \\ e^{\theta_k^Tx^{(i)}} \end{bmatrix} \\ \tag{1-1} \end{aligned}$
假设输入向量 $x$ 的维数为 $n$ ，则参数 $\theta$ 是一个 $k\times (n+1)$ 的参数矩阵，之所以是 $n + 1$ 是因为把截距项 $b$ 表示成了 $\theta_0\times x_0$ ，其中 $x_0=1$ 是一个人工辅助变量。
利用极大似然估计的方法，可以得到每一类的后验概率表达式：
$P(y^{(i)}|x^{(i)};\theta)=\prod_{j=1}^k\left\{\frac{e^{\theta_j^Tx^{(i)}}}{\sum_{l=1}^ke^{\theta_l^Tx^{(i)}}}\right\}^{1(y^{(i)}=j)} \tag{1-2}$
似然函数为：
$\begin{aligned} L(\theta) &=P(\boldsymbol{Y}|\boldsymbol{X};\theta) \\ &=\prod_{i=1}^{m}P(y^{(i)}|x^{(i)};\theta) \\ &=\prod_{i=1}^{m}\prod_{j=1}^k\left\{\frac{e^{\theta_j^Tx^{(i)}}}{\sum_{l=1}^ke^{\theta_l^Tx^{(i)}}}\right\}^{1(y^{(i)}=j)}\\ \tag{1-3} \end{aligned}$
对数似然函数为：
$\begin{aligned} l(\theta) &=\log L(\theta) \\ &=\sum_{i=1}^{m}\sum_{j=1}^k1(y^{(i)}=j)\log{\frac{e^{\theta_j^Tx^{(i)}}}{\sum_{l=1}^ke^{\theta_l^Tx^{(i)}}}}\\ \tag{1-4} \end{aligned}$
上面的 $(1 - 4)$ 就是loss function。
cost function为：
$J(\theta)=-\frac{1}{m}\left[\sum_{i=1}^{m}\sum_{j=1}^k1(y^{(i)}=j)\log{\frac{e^{\theta_j^Tx^{(i)}}}{\sum_{l=1}^ke^{\theta_l^Tx^{(i)}}}}\right] \tag{1-5}$
多分类问题的目标就是利用训练数据来训练模型参数 $\theta$ 使其能够最小化 $(1 - 5)$ 。 $(1 - 5)$ 是一个凸函数，可以利用梯度下降法得到全局最小值。