动手学习深度学习1-4 softmax

最新推荐文章于 2024-07-18 21:50:21 发布

Mangoit

最新推荐文章于 2024-07-18 21:50:21 发布

阅读量1.8k

点赞数 2

分类专栏：动手学深度学习

本文链接：https://blog.csdn.net/qq_36666756/article/details/83212472

版权

本文介绍了softmax回归的从零开始实现，包括理解softmax的原理和交叉熵损失函数的计算。文章提醒在实现过程中要注意数值稳定性问题，特别是在使用exp(x)函数时可能会导致精度计算不准确。同时，提到了增大学习率可能导致模型性能下降。

摘要由CSDN通过智能技术生成

Softmax 回归的从零开始实现

理解：https://blog.csdn.net/red_stone1/article/details/80687921

%matplotlib inline
import gluonbook as gb  #要把这个包放在同一个根目录下
from mxnet import autograd, nd
#============获取和读取数据使用 Fashion-MNIST 数据集，并设置批量大小为 256
batch_size = 256
train_iter, test_iter = gb.load_data_fashion_mnist(batch_size)#完成了将数据封装成数据迭代器
#这函数中有.vision.FashionMNIST()会自动下载数据还有.DataLoader()这函数是将数据弄成一个数据迭代器

#===========初始化模型参数
#跟线性回归中的例子一样，我们将使用向量表示每个样本。已知每个样本输入是高和宽均为 28 像素的图像。
#模型的输入向量的长度是  28×28=784 ：该向量的每个元素对应图像中每个像素。由于图像有 10 个类别，单层神经网络输出层的输出个数为 10。
#所以 Softmax 回归的权重和偏差参数分别为 784×10  和  1×10 的矩阵。
num_inputs=784
num_outputs=10
W=nd.random.normal(scale=0.01,shape=(num_inputs,num_outputs))
b=nd.zeros(num_outputs)
W.attach_grad()  #就是为参数梯度的存放开辟了空间，以助于参数更新的时候进行访问
b.attach_grad()

#===========实现 Softmax 运算
#给定一个 NDArray 矩阵X。我们可以只对其中同一列（axis=0）或同一行（axis=1）的元素求和，
# #并在结果中保留行和列这两个维度（keepdims=True）。
# X = nd.array([[1, 2, 3], [4, 5, 6]])
# X.sum(ax