1.分类问题
大致指某些类别的表示方法由0和1组成——独热编码,,此为一个向量,分量和类别一样多,具体表现为一个1,其他全为0。如:(0,0,1) (0,1,0) (1,0,0)
2.网络结构
为了故计所有可能类别的条件概率,设立(类别*特征)个标量表示权重,以及(类别)个标量表示偏置。
3.全连接层的参数开销
4.softmax运算
使预测规范化,输出都是非负且总和为1(以及 校准)。 选择最有可能的类别
softmax运算的大致概念:
5.小批量样本的矢量化
将小批量样本矢量化,即转换成矩阵向量,可加快运算速度,且输出指定形状的矩阵。
6.损失函数
6.1对数似然
6.2softmax及其导数
6.3交叉熵损失
7.信息论基础
7.1熵
7.2信息量
关于事件概率的离散度
7.3重新审视交叉熵