神经网络学习笔记(三)

文章讲述了softmax函数如何将预测转换为概率分布,确保非负且总和为1,同时介绍了交叉熵损失作为分类问题的常用损失函数。此外,讨论了熵和信息量的概念,并在图像分类中,解释了如何将28x28的图像展平为1x784的向量用于softmax回归的实现。
摘要由CSDN通过智能技术生成

3.4.4 softmax函数能够将未规范化的预测变换为非负数并且总和为1,同时让模型保持 可导的性质。 为了完成这一目标,我们首先对每个未规范化的预测求幂,这样可以确保输出非负。 为了确保最终输出的概率值总和为1,我们再让每个求幂后的结果除以它们的总和。

问题:图中所标的等号真的是相等吗?

       我认为是不相等的,这个等号相当于“定义”,将在知道xi发生的情况下yi发生的概率的log的负数,定义为损失函数也就是交叉熵损失。

我们使用 (3.4.8)来定义损失L 它是所有标签分布的预期损失值。

此损失称为交叉熵损失cross-entropy loss),它是分类问题最常用的损失之一。

 

不是很清楚他这里为啥吧log当成了ln用,而且还有一部分没有这么用。

3.4.7.1

        信息论的核心思想是量化数据中的信息内容。 在信息论中,该数值被称为分布Pentropy)。可以通过以下方程得到。

3.4.7.2信息量

        压缩与预测有什么关系呢? 想象一下,我们有一个要压缩的数据流。 如果我们很容易预测下一个数据,那么这个数据就很容易压缩

        为什么呢? 举一个极端的例子,假如数据流中的每个数据完全相同,这会是一个非常无聊的数据流。 由于它们总是相同的,我们总是知道下一个数据是什么。 所以,为了传递数据流的内容,我们不必传输任何信息。也就是说,下一个数据是xx”这个事件毫无信息量。

在上面的曲线中我们的x轴就是P(j),我们在a点取一个值,这个值经过负号的处理就会变得很大。

3.4.7.3重新审视交叉熵

        总结来说就是交叉熵干了两件事一个是让P趋向于Q,另一件事是让我们发生P=Q时我们的惊讶程度最低。

3.5图像分类的数据集

下面进行数据集的读取:

       我们在使用jupyter notebook的时候如果给我们报错../data无法访问,我们这时候就要去用管理员身份去打开它就好了。

3.6softmax回归的从零开始实现

        和之前线性回归的例子一样,这里的每个样本都将用固定长度的向量表示。 原始数据集中的每个样本都是28×28的图像。 本节将展平每个图像,把它们看作长度为784的向量 在后面的章节中,我们将讨论能够利用图像空间结构的特征, 但现在我们暂时只把每个像素位置看作一个特征。

        回想一下,在softmax回归中,我们的输出与类别一样多。 因为我们的数据集有10个类别,所以网络输出维度为10 因此,权重将构成一个784×10的矩阵, 偏置将构成一个1×10的行向量。 与线性回归一样,我们将使用正态分布初始化我们的权重W,偏置初始化为0

        问题:这里的将每个图像展平说是什么意思:就是本来一个28*28的矩阵,给变换成1*784的一个向量,我们的权重时784*10的一个矩阵,这两个相乘(1*784*784*10=1*10)的一个向量。这个就是输出。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值