很基础！！！吴恩达deeplearning.ai:多分类问题

江安的猪猪

已于 2024-02-27 00:07:48 修改

阅读量1.2k

点赞数 28

分类专栏：吴恩达deeplearning.ai 文章标签：人工智能分类深度学习神经网络 python

于 2024-02-27 00:06:25 首次发布

本文链接：https://blog.csdn.net/m0_75077001/article/details/136310690

版权

吴恩达deeplearning.ai 专栏收录该内容

40 篇文章 6 订阅

订阅专栏

以下内容有任何不理解可以翻看我之前的博客哦：吴恩达deeplearning.ai
多分类问题指的是分类问题你可能有多于两个以上可能的输出标签（而不只是0和1）让我们通过例子具体看看是怎么样的。

举例

MNIST 例子（手写数字识别问题）

在之前的博客之中，我们的y标签只有0、1两种选择。但在真实的手写识别中，y的可能取值有10个：0~9。从这里你可以看出，多分类问题仍然是一个分类问题，但是y可以取少量离散类别的数字（不是任何数字都行）

多分类问题的例子

这是之前我们遇到的例子：
在这里插入图片描述
图中只有圆圈和叉叉两种不同的类型；而在多分类问题中，我们常常遇到的是这样子的：

例如上图就有四种不同的类别。因此在估计时，答案就应该是答案为第一种的概率为多少，第二种的概率为多少，第三种的概率，第四种等等。数学表达式写法为：
$P(y=1|\vec{x} )$

新的算法——softmax

回顾

很明显，之前的算法无法满足我们多分类问题的需要，因此我们引入了一种新算法softmax，softmax是对原本逻辑回归算法的一种推广。
我们先回忆一下逻辑回归，先求出z，再求其sigmoid，即为概率：
$z=\vec{x}\cdot\vec{w}+b\\ a=g(z)=\frac{1}{1+e^{-z}}=P(y=1|\vec{x})$

公式

现在让我们推广到softmax，即y的值可以推广到1，2，3，4。那么，我们需要分别计算出1，2，3，4的概率,求z的数学公式与上面类似：
$z_1=\vec{w_1}\cdot\vec{x}+b_1\\ z_2=\vec{w_2}\cdot\vec{x}+b_2\\ z_3=\vec{w_3}\cdot\vec{x}+b_3\\ z_4=\vec{w_4}\cdot\vec{x}+b_4$
但计算概率的公式有些变化，分母变成了四项的相加：
$a_1=\frac{e^{z_1}}{e^{z_1}+e^{z_2}+e^{z_3}+e^{z_4}}\\ a_2=\frac{e^{z_2}}{e^{z_1}+e^{z_2}+e^{z_3}+e^{z_4}}\\ a_3=\frac{e^{z_3}}{e^{z_1}+e^{z_2}+e^{z_3}+e^{z_4}}\\ a_4=\frac{e^{z_4}}{e^{z_1}+e^{z_2}+e^{z_3}+e^{z_4}}$
$a_x$ 解释为算法对于概率的估计。以上就是softmax模型的一个例子。它具有参数w1到w4；b1到b4。
另外你也应该感觉到了，这四个概率满足：
$a_1+a_2+a_3+a_4=1$
我们可以把softmax的数学公式总结一下：
$z_j=w_j\cdot x+b_j,j=1,....,N\\ a_j=\frac{e^{z_j}}{\sum e^{z_k}}\\ \sum a_n=1$
此处的aj就是对模型等于j的估计。
这个模型可以看作是逻辑回归的一个泛化，因为如果j只有1，2的话，就是普通的逻辑回归了。

成本函数

接下来就该看看成本函数该怎么写了，同样地，我们仍然先回顾一下逻辑回归中的成本函数“二元交叉熵”是怎么写的：
$loss=-y loga_1-(1-y)log(1-a_1)\\ (PS:1-a_1=a_2)\\ J(w,b)=average\:loss$
我将在下方写出softmax的损失函数:
$loss=:\begin {cases}-loga_1,if\:\:y=1\\ -loga_2,if\:\; y=2\\ -loga_3,if\;\;y=3\\ -loga_4,if\;\;y=4 \end{cases}$
它的意思是，如果这个标签的值y为n,那么就运行第n个式子。如果该答案概率远小于1，那么修正就会很大，否则就会很小，如下图：
在这里插入图片描述
（上图的图像大佬画的其实是有问题的，蓝色线应该穿过（1，0）。
为了给读者你造成不必要的麻烦，博主的所有视频都没开仅粉丝可见，如果想要阅读我的其他博客，可以点个小小的关注哦。