动手学深度学习-2021-11-10

softmax线性回归

分类问题

  • 独热编码是一个向量,其分量和类别一样多。类别对应的分量设置为1,其他所有分量设置为0。例如鸡猫狗分类中,猫对应(1,0,0),狗对应(0,1,0),鸡对应(0,0,1)

网络结构

  • 为了估计所有可能类别的条件概率,需要一个有多个输出的模型,每个类别对应一个输出。
  • 在学习的例子当中有4个特征和3个可能的输出类别,需要12个标量来表示权重,3个标量表示偏置 y=x1w11+x2w12+x3w13+x4w14+b1…转换成矩阵就是权重矩阵和特征矩阵相乘再加上偏置b得到
  • softmax回归是一种单层神经网络
    softmax回归是一种单层神经网络

全连接层的参数开销

  • 将模型的输出视作概率,优化参数以最大化观测数据的概率
  • 设置选择最大概率的标签,阈值argmaxjyj
  • 要将输出视为概率,必须保证在任何数据上的输出都是非负且总和为1;需要训练一个目标来鼓励模型精准估计模型。
  • 校准:在分类器输出0.5的所有样本中,我们希望这些样本有一半实际上属于预测的类
  • exp 指数函数 归一化

小批量样本的矢量化

  • O=XW+b X是小批量矩阵
  • Y=softmax(O)

损失函数

  • 损失函数度量预测概率的效果
  • 一堆数据中估计某一参数a,a最有可能的值的概率用最大似然估计来推出,即使得a的可能性最大的值成为a的最大似然估计
  • 类似于线性回归当中的均方误差
  • 对数似然,利用最大似然估计
  • 交叉熵损失
  • 概念不是很理解,但重点明白交叉熵损失在深度学习里作为损失函数,损失函数就是衡量理想与现实的差距的。
  • 参考 :一个大佬写的损失函数和交叉熵损失函数的理解

信息论基础

  • 熵 :信息论的核心是量化数据中的信息内容,在信息论中,该数值被称为分布P的熵;对从分布P中随即抽取的数据进行编码,我们至少需要H[P]纳特对其进行编码,1纳特约等于1.44位
    在这里插入图片描述
  • 惊异:数据容易被预测,就很容易被压缩。克当不能完全预测时会感到惊异,劳德香农使用在这里插入图片描述来量化一个人的惊异。在观察一个事件j,并赋予它(主观)的概率P(j)。熵是当分配的概率真正匹配数据生成过程时的预期惊异
  • 重新审视交叉熵:熵是知道真实概率的人所经历的惊异程度;交叉熵从P到Q,记为H(P,Q),是主观概率为Q的观察者在看到概率P实际生成的数据时的预期惊异,当P=Q时,交叉熵达到最低
  • 交叉熵分类目标:最大化观测数据的似然;最小化传达标签所需的惊异

softmax的三个步骤

  • 对每一个项求幂
  • 对每一行求和(小批量中每个样本是一行),得到每一个样本的归一化常数
  • 将每一行除以其归一化常数,确保结果和为1

总结

在数学概念的理解有点困难,但问题不大。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值