动手学深度学习-2021-11-10

最新推荐文章于 2024-07-25 16:08:18 发布

Anday33

最新推荐文章于 2024-07-25 16:08:18 发布

阅读量563

点赞数

文章标签：深度学习机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LGY33/article/details/121254606

版权

softmax线性回归

分类问题

独热编码是一个向量，其分量和类别一样多。类别对应的分量设置为1，其他所有分量设置为0。例如鸡猫狗分类中，猫对应(1,0,0),狗对应(0,1,0),鸡对应(0,0,1)

网络结构

为了估计所有可能类别的条件概率，需要一个有多个输出的模型，每个类别对应一个输出。
在学习的例子当中有4个特征和3个可能的输出类别，需要12个标量来表示权重，3个标量表示偏置 y=x1w11+x2w12+x3w13+x4w14+b1…转换成矩阵就是权重矩阵和特征矩阵相乘再加上偏置b得到
softmax回归是一种单层神经网络

全连接层的参数开销

将模型的输出视作概率，优化参数以最大化观测数据的概率
设置选择最大概率的标签，阈值argmaxjyj
要将输出视为概率，必须保证在任何数据上的输出都是非负且总和为1；需要训练一个目标来鼓励模型精准估计模型。
校准：在分类器输出0.5的所有样本中，我们希望这些样本有一半实际上属于预测的类
exp 指数函数归一化

小批量样本的矢量化

O=XW+b X是小批量矩阵
Y=softmax(O)

损失函数

损失函数度量预测概率的效果
一堆数据中估计某一参数a，a最有可能的值的概率用最大似然估计来推出，即使得a的可能性最大的值成为a的最大似然估计
类似于线性回归当中的均方误差
对数似然，利用最大似然估计
交叉熵损失
概念不是很理解，但重点明白交叉熵损失在深度学习里作为损失函数，损失函数就是衡量理想与现实的差距的。
参考：一个大佬写的损失函数和交叉熵损失函数的理解

信息论基础

熵：信息论的核心是量化数据中的信息内容，在信息论中，该数值被称为分布P的熵；对从分布P中随即抽取的数据进行编码，我们至少需要H[P]纳特对其进行编码，1纳特约等于1.44位
惊异：数据容易被预测，就很容易被压缩。克当不能完全预测时会感到惊异，劳德香农使用来量化一个人的惊异。在观察一个事件j，并赋予它（主观）的概率P(j)。熵是当分配的概率真正匹配数据生成过程时的预期惊异
重新审视交叉熵：熵是知道真实概率的人所经历的惊异程度；交叉熵从P到Q，记为H(P,Q)，是主观概率为Q的观察者在看到概率P实际生成的数据时的预期惊异，当P=Q时，交叉熵达到最低
交叉熵分类目标：最大化观测数据的似然；最小化传达标签所需的惊异

softmax的三个步骤

对每一个项求幂
对每一行求和（小批量中每个样本是一行），得到每一个样本的归一化常数
将每一行除以其归一化常数，确保结果和为1

总结

在数学概念的理解有点困难，但问题不大。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
动手学深度学习-2021-11-10

softmax线性回归分类问题独热编码是一个向量，其分量和类别一样多。类别对应的分量设置为1，其他所有分量设置为0。例如鸡猫狗分类中，猫对应(1,0,0),狗对应(0,1,0),鸡对应(0,0,1)网络结构为了估计所有可能类别的条件概率，需要一个有多个输出的模型，每个类别对应一个输出。在学习的例子当中有4个特征和3个可能的输出类别，需要12个标量来表示权重，3个标量表示偏置 y=x1w11+x2w12+x3w13+x4w14+b1…转换成矩阵就是权重矩阵和特征矩阵相乘再加上偏置b得到
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。