softmax回归的从零开始实现

DeeGLMath

已于 2023-06-14 23:53:53 修改

阅读量880

点赞数

分类专栏：深度学习文章标签：回归 python 数据挖掘

于 2021-10-23 21:36:51 首次发布

本文链接：https://blog.csdn.net/linjing_zyq/article/details/120926753

版权

深度学习专栏收录该内容

21 篇文章 4 订阅

订阅专栏

softmax回归的从零开始实现

# 导入包或模块
%matplotlib inline
from utils import load_data_fashion_mnist
from mxnet import autograd, nd

1. 获取和读取数据

# 使用Fashion-MNIST数据集，并设置批量大小为256
batch_size = 256
train_iter, test_iter = load_data_fashion_mnist(batch_size)

2. 初始化模型参数

已知每个样本输⼊是⾼和宽均为28像素的图像。模型的输⼊向量的⻓度是28 × 28 = 784：该向量的每个元素对应图像中每个像素。由于图像有10个类别，单层神经⽹络输出层的输出个数为10，因此softmax回归的权重和偏差参数分别为784 × 10和1 × 10的矩阵。

num_inputs = 784 # 输入维数
num_outputs = 10 # 输出类别数

W = nd.random.normal(scale=0.01, shape=(num_inputs, num_outputs))
b = nd.zeros(num_outputs)

# 附上梯度
W.attach_grad()
b.attach_grad()

3. 实现softmax运算

给定⼀个NDArray矩阵X。我们可以只对其中同⼀列（axis=0）或同⼀⾏（axis=1）的元素求和，并在结果中保留⾏和列这两个维度（keepdims=True）。

在下⾯的函数中，矩阵X的⾏数是样本数，列数是输出个数。为了表达样本预测各个输出的概率，softmax运算会先通过exp函数对每个元素做指数运算，再对exp矩阵同⾏元素求和，最后令矩阵每⾏各元素与该⾏元素之和相除。这样⼀来，最终得到的矩阵每⾏元素和为1且⾮负。因此，该矩阵每⾏都是合法的概率分布。softmax运算的输出矩阵中的任意⼀行元素代表了⼀个样本在各个输出类别上的预测概率。

# 对于输⼊，将每个元素变成了⾮负数，且每⼀⾏和为1。
def softmax(X):
    X_exp = X.exp()
    partition = X_exp.sum(axis=1, keepdims=True)
    return X_exp / partition # 应用广播机制

4. 定义模型

有了softmax运算，我们可以定义上节描述的softmax回归模型了。这⾥通过reshape函数将每张原始图像改成⻓度为num_inputs的向量。

def net(X):
    return softmax(nd.dot(X.reshape((-1, num_inputs)), W) + b)

5. 定义损失函数

为了得到标签的预测概率，我们可以使⽤pick函数。

y_hat = nd.array([[0.1, 0.3, 0.6], [0.3, 0.2, 0.5]])
y = nd.array([0, 2], dtype='int32')
nd.pick(y_hat, y)

[0.1 0.5]
<NDArray 2 @cpu(0)>

def cross_entropy(y_hat, y):
    return -nd.pick(y_hat, y).log()

6. 计算分类准确率

为了演示准确率的计算，下⾯定义准确率accuracy函数。其中y_hat.argmax(axis=1)返回矩阵y_hat每⾏中最大元素的索引，且返回结果与变量y形状相同。相等条件判断式(y_hat.argmax(axis=1) == y)是⼀个值为0（相等为假）或1（相等为真）的NDArray。由于标签类型为整数，我们先将变量y变换为浮点数再进⾏相等条件判断。

def accuracy(y_hat, y):
    return (y_hat.argmax(axis=1) == y.astype('float32')).mean().asscalar()

# 预测准确率
accuracy(y_hat, y)

0.5

# 模型net在数据集data_iter上的准确率
def evaluate_accuracy(data_iter, net):
    acc_sum, n = 0.0, 0
    for X, y in data_iter:
        y = y.astype('float32')
        acc_sum += (net(X).argmax(axis=1) == y).sum().asscalar()
        n += y.size
    return acc_sum / n

evaluate_accuracy(test_iter, net)

0.0856

7. 训练模型

在训练模型时，迭代周期数num_epochs和学习率lr都是可以调的超参数。改变它们的值可能会得到分类更准确的模型。

from utils import sgd
num_epochs, lr = 6, 0.01
def train_softmax(net, train_iter, test_iter, loss, num_epochs, batch_size, params=None, lr=None, trainer=None):
    for epoch in range(num_epochs):
        train_l_sum, train_acc_sum, n = 0.0, 0.0, 0
        for X, y in train_iter:
            with autograd.record():
                y_hat = net(X)
                l = loss(y_hat, y).sum()
            l.backward()
            if trainer is None:
                sgd(params, lr, batch_size)
            else:
                trainer.step(batch_size)
            y = y.astype('float32')
            train_l_sum += l.asscalar()
            train_acc_sum += (y_hat.argmax(axis=1) == y).sum().asscalar()
            n += y.size
            test_acc = evaluate_accuracy(test_iter, net)
        print('epoch %d, loss %.4f, train acc %.3f, test acc %.3f'% (epoch + 1, train_l_sum / n, train_acc_sum / n, test_acc))

train_softmax(net, train_iter, test_iter, cross_entropy, num_epochs, batch_size, [W, b], lr)

epoch 1, loss 1.3704, train acc 0.633, test acc 0.692
epoch 2, loss 0.9199, train acc 0.714, test acc 0.736
epoch 3, loss 0.8060, train acc 0.747, test acc 0.759
epoch 4, loss 0.7455, train acc 0.765, test acc 0.771
epoch 5, loss 0.7059, train acc 0.777, test acc 0.783
epoch 6, loss 0.6770, train acc 0.786, test acc 0.791

8. 预测

给定⼀系列图像（第三行图像输出），我们⽐较⼀下它们的真实标签（第⼀行⽂本输出）和模型预测结果（第二行文本输出）。

from utils import get_fashion_mnist_labels, show_fashion_mnist
for X, y in test_iter:
    break
true_labels = get_fashion_mnist_labels(y.asnumpy())
pred_labels = get_fashion_mnist_labels(net(X).argmax(axis=1).asnumpy())
titles = [true + '\n' + pred for true, pred in zip(true_labels, pred_labels)]

show_fashion_mnist(X[0:10], titles[0:10])

在这里插入图片描述

DeeGLMath

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
softmax回归的从零开始实现

softmax回归的从零开始实现# 导入包或模块%matplotlib inlinefrom utils import load_data_fashion_mnistfrom mxnet import autograd, nd1. 获取和读取数据# 使用Fashion-MNIST数据集，并设置批量大小为256batch_size = 256train_iter, test_iter = load_data_fashion_mnist(batch_size)2. 初始化模型参数已知每个
复制链接

扫一扫