softmax线性回归
分类问题
- 独热编码是一个向量,其分量和类别一样多。类别对应的分量设置为1,其他所有分量设置为0。例如鸡猫狗分类中,猫对应(1,0,0),狗对应(0,1,0),鸡对应(0,0,1)
网络结构
- 为了估计所有可能类别的条件概率,需要一个有多个输出的模型,每个类别对应一个输出。
- 在学习的例子当中有4个特征和3个可能的输出类别,需要12个标量来表示权重,3个标量表示偏置 y=x1w11+x2w12+x3w13+x4w14+b1…转换成矩阵就是权重矩阵和特征矩阵相乘再加上偏置b得到
- softmax回归是一种单层神经网络
全连接层的参数开销
- 将模型的输出视作概率,优化参数以最大化观测数据的概率
- 设置选择最大概率的标签,阈值argmaxjyj
- 要将输出视为概率,必须保证在任何数据上的输出都是非负且总和为1;需要训练一个目标来鼓励模型精准估计模型。
- 校准:在分类器输出0.5的所有样本中,我们希望这些样本有一半实际上属于预测的类
- exp 指数函数 归一化
小批量样本的矢量化
- O=XW+b X是小批量矩阵
- Y=softmax(O)
损失函数
- 损失函数度量预测概率的效果
- 一堆数据中估计某一参数a,a最有可能的值的概率用最大似然估计来推出,即使得a的可能性最大的值成为a的最大似然估计
- 类似于线性回归当中的均方误差
- 对数似然,利用最大似然估计
- 交叉熵损失
- 概念不是很理解,但重点明白交叉熵损失在深度学习里作为损失函数,损失函数就是衡量理想与现实的差距的。
- 参考 :一个大佬写的损失函数和交叉熵损失函数的理解
信息论基础
- 熵 :信息论的核心是量化数据中的信息内容,在信息论中,该数值被称为分布P的熵;对从分布P中随即抽取的数据进行编码,我们至少需要H[P]纳特对其进行编码,1纳特约等于1.44位
- 惊异:数据容易被预测,就很容易被压缩。克当不能完全预测时会感到惊异,劳德香农使用
来量化一个人的惊异。在观察一个事件j,并赋予它(主观)的概率P(j)。熵是当分配的概率真正匹配数据生成过程时的预期惊异
- 重新审视交叉熵:熵是知道真实概率的人所经历的惊异程度;交叉熵从P到Q,记为H(P,Q),是主观概率为Q的观察者在看到概率P实际生成的数据时的预期惊异,当P=Q时,交叉熵达到最低
- 交叉熵分类目标:最大化观测数据的似然;最小化传达标签所需的惊异
softmax的三个步骤
- 对每一个项求幂
- 对每一行求和(小批量中每个样本是一行),得到每一个样本的归一化常数
- 将每一行除以其归一化常数,确保结果和为1
总结
在数学概念的理解有点困难,但问题不大。