3.4.4 softmax函数能够将未规范化的预测变换为非负数并且总和为1,同时让模型保持 可导的性质。 为了完成这一目标,我们首先对每个未规范化的预测求幂,这样可以确保输出非负。 为了确保最终输出的概率值总和为1,我们再让每个求幂后的结果除以它们的总和。
问题:图中所标的等号真的是相等吗?
我认为是不相等的,这个等号相当于“定义”,将在知道xi发生的情况下yi发生的概率的log的负数,定义为损失函数也就是交叉熵损失。
我们使用 (3.4.8)来定义损失L, 它是所有标签分布的预期损失值。
此损失称为交叉熵损失(cross-entropy loss),它是分类问题最常用的损失之一。
不是很清楚他这里为啥吧log当成了ln用,而且还有一部分没有这么用。
3.4.7.1熵
信息论的核心思想是量化数据中的信息内容。 在信息论中,该数值被称为分布P的熵(entropy)。可以通过以下方程得到。
3.4.7.2信息量
压缩与预测有什么关系呢? 想象一下,我们有一个要压缩的数据流。 如果我们很容易预测下一个数据,那么这个数据就很容易压缩。
为什么呢? 举一个极端的例子,假如数据流中的每个数据完全相同,这会是一个非常无聊的数据流。 由于它们总是相同的,我们总是知道下一个数据是什么。 所以,为了传递数据流的内容,我们不必传输任何信息。也就是说,“下一个数据是xx”这个事件毫无信息量。
在上面的曲线中我们的x轴就是P(j),我们在a点取一个值,这个值经过负号的处理就会变得很大。
3.4.7.3重新审视交叉熵
总结来说就是交叉熵干了两件事一个是让P趋向于Q,另一件事是让我们发生P=Q时我们的惊讶程度最低。
3.5图像分类的数据集
下面进行数据集的读取:
我们在使用jupyter notebook的时候如果给我们报错../data无法访问,我们这时候就要去用管理员身份去打开它就好了。
3.6softmax回归的从零开始实现
和之前线性回归的例子一样,这里的每个样本都将用固定长度的向量表示。 原始数据集中的每个样本都是28×28的图像。 本节将展平每个图像,把它们看作长度为784的向量。 在后面的章节中,我们将讨论能够利用图像空间结构的特征, 但现在我们暂时只把每个像素位置看作一个特征。
回想一下,在softmax回归中,我们的输出与类别一样多。 因为我们的数据集有10个类别,所以网络输出维度为10。 因此,权重将构成一个784×10的矩阵, 偏置将构成一个1×10的行向量。 与线性回归一样,我们将使用正态分布初始化我们的权重W,偏置初始化为0。
问题:这里的将每个图像展平说是什么意思:就是本来一个28*28的矩阵,给变换成1*784的一个向量,我们的权重时784*10的一个矩阵,这两个相乘(1*784)*(784*10)=(1*10)的一个向量。这个就是输出。