2月13日学习内容1：softmax_softmax轴长-CSDN博客

本文链接：https://blog.csdn.net/weixin_43343813/article/details/104292109

写在开头：内容来源：伯禹学习平台课程

部分内容参考下面链接文章：https://blog.csdn.net/b1055077005/article/details/100152102

Softmax与分类模型

1.softmax解决的问题和基本形式

在这里插入图片描述

2.softmax的小批量计算表达式

在这里插入图片描述

延伸知识点：广播机制

当计算的数组之间shape不相等时，利用广播机制提作证数组使得shape一样，调整规则如下：

让所有输入数组都向其中shape最长的数组看齐，不足的部分则通过在前面加1补齐，例如：
a : 2x3x2，b:3x2,则b向a看齐，在b的前面加1，变为：1×3×2
输出数组的shape是输入数组shape的各个轴上的最大值；
如果输入数组的某个轴和输出数组的对应轴的长度相同或者某个轴的长度为1时，这个数组能被用来计算，否则出错；
当输入数组的某个轴的长度为1时，沿着此轴运算时都用（或复制）此轴上的第一组值。
实例说明：

3.交叉熵损失函数

信息量

在这里插入图片描述

信息熵

假设X为离散型随机变量，信息熵公式为
在这里插入图片描述
信息熵也被称为熵，用来表示所有信息量的期望。期望是试验中每次可能结果的概率乘以其结果的总和。

KL散度

KL散度也叫相对熵，用于描述对于同一个随机变量X的两个单独的概率分布P(x)和Q(x)之间的差异
在这里插入图片描述
在机器学习中，常常使用P(x)来表示样本的真实分布，Q(x)来表示模型所预测的分布，比如在一个三分类任务中x1,x2,x3 分别代表三个类别，假设某一实例真实分布P(X)=[1,0,0], 预测分布Q(X)=[0.7,0.2,0.1]，计算KL散度：
在这里插入图片描述
KL散度越小，表示P(x)与Q(x)的分布更加接近，可以通过反复训练Q(x)来使Q(x)的分布逼近P(x)。

交叉熵

首先将KL散度公式拆开：
在这里插入图片描述
前者H(p(x))表示信息熵，后者即为交叉熵，KL散度 = 交叉熵 - 信息熵
在机器学习训练网络时，输入数据与标签常常已经确定，那么真实概率分布P(x)也就确定下来了，所以信息熵在这里就是一个常量。由于KL散度的值表示真实概率分布P(x)与预测概率分布Q(x)之间的差异，值越小表示预测的结果越好，所以需要最小化KL散度，而交叉熵等于KL散度加上一个常量（信息熵），且公式相比KL散度更加容易计算，所以在机器学习中常常使用交叉熵损失函数来计算loss就行了。

4.softmax模型训练与预测

在训练好softmax回归模型后，给定任一样本特征，就可以预测每个输出类别的概率。通常，我们把预测概率最大的类别作为输出类别。如果它与真实类别（标签）一致，说明这次预测是正确的。在下面的实验中，我们将使用准确率（accuracy）来评价模型的表现。它等于正确预测数量与总预测数量之比。

#softmax pytorch框架下实现
import torch
from torch import nn
from torch.nn import init
import numpy as np
import sys
sys.path.append("/home/kesci/input")
import d2lzh1981 as d2l

print(torch.__version__)
#初始化参数和获取数据
batch_size = 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size, root='/home/kesci/input/FashionMNIST2065')
#定义网络模型
num_inputs = 784
num_outputs = 10

class LinearNet(nn.Module):
    def __init__(self, num_inputs, num_outputs):
        super(LinearNet, self).__init__()
        self.linear = nn.Linear(num_inputs, num_outputs)
    def forward(self, x): # x 的形状: (batch, 1, 28, 28)
        y = self.linear(x.view(x.shape[0], -1))
        return y
    
# net = LinearNet(num_inputs, num_outputs)

class FlattenLayer(nn.Module):
    def __init__(self):
        super(FlattenLayer, self).__init__()
    def forward(self, x): # x 的形状: (batch, *, *, ...)
        return x.view(x.shape[0], -1)

from collections import OrderedDict
net = nn.Sequential(
        # FlattenLayer(),
        # LinearNet(num_inputs, num_outputs) 
        OrderedDict([
           ('flatten', FlattenLayer()),
           ('linear', nn.Linear(num_inputs, num_outputs))]) # 或者写成我们自己定义的 LinearNet(num_inputs, num_outputs) 也可以
        )
#初始化参数模型
init.normal_(net.linear.weight, mean=0, std=0.01)
init.constant_(net.linear.bias, val=0)
#定义损失函数
loss = nn.CrossEntropyLoss() 
#定义优化函数
optimizer = torch.optim.SGD(net.parameters(), lr=0.1)
#训练
num_epochs = 5
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, batch_size, None, None, optimizer)