softmax回归

SupremeNO.1

已于 2023-03-23 15:25:29 修改

阅读量343

点赞数

分类专栏：深度学习文章标签：回归机器学习深度学习

于 2023-03-21 21:33:01 首次发布

本文链接：https://blog.csdn.net/Supremelv/article/details/129697683

版权

深度学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

1.Softmax回归

Softmax回归是一种常用的分类模型，常用于多分类问题。它可以将一个实例映射为各个类别的概率分布，从而使得每个类别的概率之和为1。

Softmax回归的基本思想是首先对每个类别计算一个分数（score），然后将分数转化为概率。具体地，给定一个输入样本 $\mathbf{x}$ ，Softmax回归首先对每个类别 $j$ 计算一个分数 $z_j=\mathbf{w}_j^T\mathbf{x}+b_j$ ，其中 $\mathbf{w}_j$ 和 $b_j$ 分别是第 $j$ 个类别的权重和偏差， $\mathbf{w}_j$ 和 $\mathbf{x}$ 都是向量。然后，将每个类别的分数通过 softmax 函数转化为概率：

$\hat{y}j = \frac{e^{z_j}}{\sum{k=1}^Ke^{z_k}}$

其中 $\hat{y}_j$ 是样本属于第 $j$ 个类别的概率估计值， $K$ 是总共的类别数。Softmax 函数可以将分数转化为概率，使得所有类别的概率之和为1。

在训练Softmax回归模型时，通常采用最大似然估计法来估计模型参数。给定一个训练集 $\mathcal{D}={(\mathbf{x}i,y_i)}{i=1}^n$ ，其中 $\mathbf{x}_i$ 是样本的特征向量， $y_i$ 是样本的类别标签。假设每个样本属于某个类别的概率是 $\hat{y}_i$ ，则对于样本 $(\mathbf{x}_i,y_i)$ ，其似然函数可以定义为：

$L(\mathbf{w},\mathbf{b})=\prod_{i=1}^K \prod_{j=1}^n (\hat{y}_{i}^{(j)})^{[y_i=j]}$

其中 $\hat{y}_{i}^{(j)}$ 是样本 $\mathbf{x}_j$ 属于类别 $i$ 的预测概率， $y_i=j]$ 是一个指示函数，当 $y_i=j$ 时其值为1，否则为0。将上式取负对数，则可得到 Softmax 回归的损失函数：

$J(\mathbf{w},\mathbf{b})=-\sum_{i=1}^n\sum_{j=1}^K[y_i=j]\log \hat{y}_{i}^{(j)}$

该损失函数可以通过梯度下降等优化算法来最小化。

2.Softmax函数

Softmax函数是一种常用的激活函数，主要用于将多个输入转换成一个归一化的概率分布输出。Softmax函数通常被用于多分类任务，例如图像分类、自然语言处理等领域。

假设我们有一个长度为 $n$ 的向量 $\mathbf{z}=(z_1, z_2, \ldots, z_n)$ ，其中 $z_i$ 表示第 $i$ 个类别的得分或概率，那么Softmax函数将每个得分转换成对应类别的概率，具体地，Softmax函数的计算公式为：

$\text{Softmax}(z_i)=\frac{\exp(z_i)}{\sum_{j=1}^{n}\exp(z_j)}$

其中 $i=1,2,\ldots,n$ ， $exp(z_i)$ 表示 $z_i$ 的指数形式。Softmax函数的输出值是一个 $n$ 维向量 $\mathbf{p}=(p_1, p_2, \ldots, p_n)$ ，其中 $p_i$ 表示第 $i$ 个类别的概率。注意到，Softmax函数的输出值是一个概率分布，即 $\sum_{i=1}^n p_i = 1$ 。

直观地说，Softmax函数的作用是将输入的得分或概率进行归一化，使得它们之间的大小关系得到保留，并且可以直接用来表示不同类别的概率。具体来说，Softmax函数对每个输入值进行指数运算，然后将指数值相加并进行归一化处理，得到每个类别的概率。

需要注意的是，Softmax函数对于输入的值域较大或较小的情况可能会存在数值上的不稳定性，容易出现数值溢出或数值下溢的问题。为了解决这个问题，通常需要对输入值进行适当的调整，例如减去输入向量中的最大值。此外，由于Softmax函数的输出值是一个概率分布，因此它可以与交叉熵损失函数结合使用，用于训练神经网络进行多分类任务。

3.最大似然估计法

最大似然估计法是一种用来估计参数的方法，它的基本思想是利用观测数据来确定未知参数的值，使得这些参数能够最好地解释观测到的数据。在实际应用中，我们通常假设观测数据来自于一个已知的概率分布，而这个概率分布的参数则是我们需要估计的未知参数。

假设我们有一组观测数据 ${x_1, x_2, \ldots, x_n}$ ，并且我们已经确定了这些数据来自于一个概率分布 $\theta)$ ，其中 $\theta$ 是需要估计的未知参数。那么，最大似然估计法的目标就是找到一个参数值 $\theta$ ，使得给定这个参数值时，这组观测数据出现的概率 $L(\theta; x_1, x_2, \ldots, x_n)$ 最大。