学习笔记
Softmax
一个样本,4个特征,3个类别,o=Wx+b
o=(o1,o2,o3),表示三个类别预测分值
softmax函数能够将未规范化的预测变换为非负数并且总和为1,同时让模型保持 可导的性质
选择最大的呢个yj
对小批量样本的数据执行矢量计算 O=WX+b,b广播。
损失函数、极大似然? 交叉熵
不戴帽子的yj是独热编码,第j个分量为1,其余为0,表示属于第j类(或者:真实的概率分布)
戴帽子的是预测的概率值
导出交叉熵:
之后就直接用啦
附:熵的定义
极大似然估计
通俗地讲:
事件A的发生与参数θ有关,将事件A发生的概率用θ表示,则P(A|θ)的极大值点就是θ的极大似然估计值。
小结
-
softmax运算获取一个向量并将其映射为概率。
-
softmax回归适用于分类问题,它使用了softmax运算中输出类别的概率分布。
-
交叉熵是一个衡量两个概率分布之间差异的很好的度量,它测量给定模型编码数据所需的比特数。
多层感知机
softmax后,我们来看多层感知机。
其实就是一层线性不够啦。……在此表示的基础上建立一个线性模型可能会是合适的, 但我们不知道如何手动计算这么一种表示。 对于深度神经网络,我们使用观测数据来联合学习隐藏层表示和应用于该表示的线性预测器。
加了个隐藏层。
不能都是线性,要加个激活函数:
必要时,可以多加几层。
而且,虽然一个单隐层网络能学习任何函数, 但并不意味着我们应该尝试使用单隐藏层网络来解决所有问题。 事实上,通过使用更深(而不是更广)的网络,我们可以更容易地逼近许多函数。
CNN(卷积神经网络)
MOTIVATION:全连接太复杂了。
Do we really need “fully connected” in image processing?