神经网络学习笔记（三）_神经网络展平-CSDN博客

本文链接：https://blog.csdn.net/qq_43519259/article/details/129928909

文章讲述了softmax函数如何将预测转换为概率分布，确保非负且总和为1，同时介绍了交叉熵损失作为分类问题的常用损失函数。此外，讨论了熵和信息量的概念，并在图像分类中，解释了如何将28x28的图像展平为1x784的向量用于softmax回归的实现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

3.4.4 softmax函数能够将未规范化的预测变换为非负数并且总和为1，同时让模型保持可导的性质。为了完成这一目标，我们首先对每个未规范化的预测求幂，这样可以确保输出非负。为了确保最终输出的概率值总和为1，我们再让每个求幂后的结果除以它们的总和。

问题：图中所标的等号真的是相等吗？

我认为是不相等的，这个等号相当于“定义”，将在知道xi发生的情况下yi发生的概率的log的负数，定义为损失函数也就是交叉熵损失。

我们使用 (3.4.8)来定义损失L，它是所有标签分布的预期损失值。

此损失称为交叉熵损失（cross-entropy loss），它是分类问题最常用的损失之一。

不是很清楚他这里为啥吧log当成了ln用，而且还有一部分没有这么用。

3.4.7.1熵

信息论的核心思想是量化数据中的信息内容。在信息论中，该数值被称为分布P的熵（entropy）。可以通过以下方程得到。

3.4.7.2信息量

压缩与预测有什么关系呢？想象一下，我们有一个要压缩的数据流。如果我们很容易预测下一个数据，那么这个数据就很容易压缩。

为什么呢？举一个极端的例子，假如数据流中的每个数据完全相同，这会是一个非常无聊的数据流。由于它们总是相同的，我们总是知道下一个数据是什么。所以，为了传递数据流的内容，我们不必传输任何信息。也就是说，“下一个数据是xx”这个事件毫无信息量。

在上面的曲线中我们的x轴就是P(j)，我们在a点取一个值，这个值经过负号的处理就会变得很大。

3.4.7.3重新审视交叉熵

总结来说就是交叉熵干了两件事一个是让P趋向于Q，另一件事是让我们发生P=Q时我们的惊讶程度最低。

3.5图像分类的数据集

下面进行数据集的读取：

我们在使用jupyter notebook的时候如果给我们报错../data无法访问，我们这时候就要去用管理员身份去打开它就好了。

3.6softmax回归的从零开始实现

和之前线性回归的例子一样，这里的每个样本都将用固定长度的向量表示。原始数据集中的每个样本都是28×28的图像。本节将展平每个图像，把它们看作长度为784的向量。在后面的章节中，我们将讨论能够利用图像空间结构的特征，但现在我们暂时只把每个像素位置看作一个特征。

回想一下，在softmax回归中，我们的输出与类别一样多。因为我们的数据集有10个类别，所以网络输出维度为10。因此，权重将构成一个784×10的矩阵，偏置将构成一个1×10的行向量。与线性回归一样，我们将使用正态分布初始化我们的权重W，偏置初始化为0。

问题：这里的将每个图像展平说是什么意思：就是本来一个28*28的矩阵，给变换成1*784的一个向量，我们的权重时784*10的一个矩阵，这两个相乘（1*784）*（784*10）=（1*10）的一个向量。这个就是输出。