深度学习之softmax多元逻辑回归

最新推荐文章于 2023-05-22 15:48:04 发布

li_shucai

最新推荐文章于 2023-05-22 15:48:04 发布

阅读量759

点赞数

分类专栏：深度学习文章标签：神经网络机器学习深度学习人工智能

本文链接：https://blog.csdn.net/li_shucai/article/details/104310510

版权

深度学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

文章目录

问题的提出
softmax运算符
- 在运用softmax运算符是的注意事项
交叉熵损失函数
使用Pytorch实现softmax回归模型

问题的提出

在机器学习中，根据预测结果是连续值还是离散值可以将模型分为回归模型和分类模型。既然分类问题需要得到离散的预测输出，一个简单的办法是将输出值 $o_i$ 当作预测类别是 $i$ 的置信度，并将值最大的输出所对应的类作为预测输出，即输出 $\underset{i}{\arg\max} o_i$ 。例如，如果 $o_1,o_2,o_3$ 分别为 $0.1, 10, 0.1$ ，由于 $o_2$ 最大，那么预测类别为2，其代表猫。

输出问题
直接使用输出层的输出有两个问题：
1. 一方面，由于输出层的输出值的范围不确定，我们难以直观上判断这些值的意义。例如，刚才举的例子中的输出值10表示“很置信”图像类别为猫，因为该输出值是其他两类的输出值的100倍。但如果 $o_1=o_3=10^3$ ，那么输出值10却又表示图像类别为猫的概率很低。
2. 另一方面，由于真实标签是离散值，这些离散值与不确定范围的输出值之间的误差难以衡量。

softmax运算符

softmax运算符（softmax operator）解决了以上两个问题。它通过下式将输出值变换成值为正且和为1的概率分布：

$\hat{y}_1, \hat{y}_2, \hat{y}_3 = \text{softmax}(o_1, o_2, o_3)$

其中

$\hat{y}_1 = \frac{ \exp(o_1)}{\sum_{i=1}^3 \exp(o_i)},\quad \hat{y}_2 = \frac{ \exp(o_2)}{\sum_{i=1}^3 \exp(o_i)},\quad \hat{y}_3 = \frac{ \exp(o_3)}{\sum_{i=1}^3 \exp(o_i)}.$

容易看出 $\hat{y}_1 + \hat{y}_2 + \hat{y}_3 = 1$ 且 $\leq \hat{y}_1, \hat{y}_2, \hat{y}_3 \leq 1$ ，因此 $\hat{y}_1, \hat{y}_2, \hat{y}_3$ 是一个合法的概率分布。这时候，如果 $\hat{y}_2=0.8$ ，不管 $\hat{y}_1$ 和 $\hat{y}_3$ 的值是多少，我们都知道图像类别为猫的概率是80%。此外，我们注意到

$\underset{i}{\arg\max} o_i = \underset{i}{\arg\max} \hat{y}_i$
因此softmax运算不改变预测类别输出。

在运用softmax运算符是的注意事项

softmax 函数的实现中要进行指数函数的运算，但是此时指数函数的值很容易变得非常大，产生溢出。比如， $e^{10}$ 的值会超过 20000， $e^{100}$ 的会变成一个后面有 40 多个 0 的超大值， $e^{1000}$ 的结果会返回一个表示无穷大的 inf。如果在这些超大值之间进行除法运算，结果会出现“不确定”的情况。

softmax函数的实现可以这样改进：
$\begin{aligned} \hat{y}_k &= \frac{C \exp(o_k)}{C\sum_{i=1}^3 \exp(o_k)} \\ &= \frac{ \exp(o_k + \log{C}) }{\sum_{i=1}^3 \exp(o_k + \log{C})} \\ &= \frac{ \exp(o_k + {C}^\prime) }{\sum_{i=1}^3 \exp(o_k + {C}^\prime)} \\ \end{aligned}$
也就是说，在进行 softmax 的指数函数的运算时，加上(或者减去) 某个常数并不会改变运算的结果。这里的 ${C}^\prime$ 可以使用任何值，但是为了防止溢出，一般会使用输入信号中的最大值。

具体的可以这样实现：

def softmax(a):
	c = np.max(a)
	exp_a = np.exp(a - c)  # 防溢出对策
	sum_exp_a = np.sum(exp_a)
	y = exp_a / sum_exp_a
	return y

交叉熵损失函数

神经网络的学习通过某个指标表示现在的状态。然后，以这个指标为基准，寻找最优权重参数。神经网络的学习中所用的指标称为损失函数(loss function)。

损失函数是表示神经网络性能的“恶劣程度”的指标，即当前的神经网络对监督数据在多大程度上不拟合，在多大程度上不一致。

在回归问题中我们一般将均方误差函数作为损失函数，在多分类问题中，想要预测分类结果正确，我们其实并不需要预测概率完全等于标签概率。例如，在图像分类的例子里，如果 $y^{(i)}=3$ ，那么我们只需要 $\hat{y}^{(i)}_3$ 比其他两个预测值 $\hat{y}^{(i)}_1$ 和 $\hat{y}^{(i)}_2$ 大就行了。即使 $\hat{y}^{(i)}_3$ 值为0.6，不管其他两个预测值为多少，类别预测均正确。而平方损失则过于严格，例如 $\hat y^{(i)}_1=\hat y^{(i)}_2=0.2$ 比 $\hat y^{(i)}_1=0, \hat y^{(i)}_2=0.4$ 的损失要小很多，虽然两者都有同样正确的分类预测结果。

改善上述问题的一个方法是使用更适合衡量两个概率分布差异的测量函数。其中，交叉熵（cross entropy）是一个常用的衡量方法：

$H\left(\boldsymbol y^{(i)}, \boldsymbol {\hat y}^{(i)}\right ) = -\sum_{j=1}^q y_j^{(i)} \log \hat y_j^{(i)},$

其中带下标的 $y_j^{(i)}$ 是向量 $\boldsymbol y^{(i)}$ 中非0即1的元素，需要注意将它与样本 $i$ 类别的离散数值，即不带下标的 $y^{(i)}$ 区分。在上式中，我们知道向量 $\boldsymbol y^{(i)}$ 中只有第 $y^{(i)}$ 个元素 $y^{(i)}{y^{(i)}}$ 为1，其余全为0，于是 $H(\boldsymbol y^{(i)}, \boldsymbol {\hat y}^{(i)}) = -\log \hat y_{y^{(i)}}^{(i)}$ 。也就是说，交叉熵只关心对正确类别的预测概率，因为只要其值足够大，就可以确保分类结果正确。当然，遇到一个样本有多个标签时，例如图像里含有不止一个物体时，我们并不能做这一步简化。但即便对于这种情况，交叉熵同样只关心对图像中出现的物体类别的预测概率。

假设训练数据集的样本数为 $n$ ，交叉熵损失函数定义为
$\ell(\boldsymbol{\Theta}) = \frac{1}{n} \sum_{i=1}^n H\left(\boldsymbol y^{(i)}, \boldsymbol {\hat y}^{(i)}\right ),$

其中 $\boldsymbol{\Theta}$ 代表模型参数。同样地，如果每个样本只有一个标签，那么交叉熵损失可以简写成 $\ell(\boldsymbol{\Theta}) = -(1/n) \sum_{i=1}^n \log \hat y_{y^{(i)}}^{(i)}$ 。从另一个角度来看，我们知道最小化 $\ell(\boldsymbol{\Theta})$ 等价于最大化 $\exp(-n\ell(\boldsymbol{\Theta}))=\prod_{i=1}^n \hat y_{y^{(i)}}^{(i)}$ ，即最小化交叉熵损失函数等价于最大化训练数据集所有标签类别的联合预测概率。

使用Pytorch实现softmax回归模型

导入必要的包

import torch
import torch.nn as nn
from torch.nn import init
from torchvision import datasets

import numpy as np

初始化参数的获取数据

batch_size = 256
train_iter = torch.utils.data.DataLoader(
        datasets.FashionMNIST('./fashionmnist_data/', 
        train=True, 
        download=True,
        transform=transforms.Compose([
                           transforms.ToTensor(),
                           transforms.Normalize((0.1307,), (0.3081,))
                       ])),
        batch_size=batch_size, 
        shuffle=True, **kwargs)
        
test_iter = torch.utils.data.DataLoader(
		datasets.FashionMNIST('./fashionmnist_data/', 
        train=False, 
        transform=transforms.Compose([
            transforms.ToTensor(),
            transforms.Normalize((0.1307,), (0.3081,))
        ])),
        batch_size=batch_size, 
        shuffle=True, **kwargs)

定义网络模型

num_inputs = 784
num_outputs = 10

class LinearNet(nn.Module):
    def __init__(self, num_inputs, num_outputs):
        super(LinearNet, self).__init__()
        self.linear = nn.Linear(num_inputs, num_outputs)
        
    def forward(X):
        # X的形状： （batch, 1, 28, 28）
        y = self.linear(X.view(X.shape[0], -1))
        return y
 
        
class FlattenLayer(nn.Module):
    def __init__(self):
        super(FlattenLayer, self).__init__()
        
    def forward(self, X):
        return X.view(X.shape[0], -1)
        
        
from collections import OrderedDict
net = nn.Sequential(
    # FlattenLayer(),
    # LinearNet(num_inputs, num_outputs),
    OrderedDict([
        ('flatten', FlattenLayer()),
        ('linear', nn.Linear(num_inputs, num_outputs))
        ])

初始化模型参数

init.normal_(net.linear.weight, mean=0, std=0.01)
init.constant_(net.linear.bias, val= 0)

定义损失函数

loss = nn.CrossEntropyLoss()

定义优化函数

optimizer = torch.optim.SGD(net.parameters(), lr=0.05)

训练

num_epochs = 5

def train_net(net, train_iter, test_iter, loss, num_epochs, batch_size,
                params=None, lr=None, optimizer=None):
    for epoch in range(num_epochs):
        train_l_sum, train_acc_sum, n = 0.0, 0.0, 0
        for X, y in train_iter:
            y_hat = net(X)
            l = loss(y_hat, y).sum()
            
            # 梯度清零
            if optimizer is not None:
                optimizer.zero_grad()
            elif params is not None and params[0].grad is not None:
                for param in params:
                    param.grad.data.zero_()
                    
            l.backward()
            if optimizer is None:
                d2l.sgd(params, lr, batch_size)  # 更新W，b
            else:
                optimizer.step()
                
            
            train_l_sum += l.item()
            train_acc_sum += (y_hat.argmax(dim=1) == y).sum().item()
            n += y.shape[0]
            
        test_acc = evaluate_accuracy(test_iter, net)
        print('epoch %d, loss %.4f, train acc %.3f, test acc %.3f' 
        % (epoch + 1, train_l_sum / n, train_acc_sum / n, test_acc))

train_net(net, train_iter, test_iter, loss, num_epochs, batch_size, None, None, optimizer)

li_shucai

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
深度学习之softmax多元逻辑回归

文章目录问题的提出softmax运算符在运用softmax运算符是的注意事项交叉熵损失函数使用Pytorch实现softmax回归模型导入必要的包初始化参数的获取数据定义网络模型初始化模型参数定义损失函数定义优化函数训练问题的提出在机器学习中，根据预测结果是连续值还是离散值可以将模型分为回归模型和分类模型。既然分类问题需要得到离散的预测输出，一个简单的办法是将输出值oio_ioi当作预测类别...
复制链接

扫一扫