假设有一个图片识别十分类的任务,输入图片的像素点有3072个(32*32*3),那么得分函数矩阵如何求得?只需要一个W权重集合矩阵(10*3072)*像素点矩阵(3072*1)=得分函数矩阵(10*1),通过反向传播逐步优化权重矩阵。
softmax分类器是将得分值转化成概率,把得分函数的任意得分值转化成[0,1],常用的有sigmoid函数。
神经网络的整体架构是输入层,隐藏层,输出层,在每个隐藏层之后都要加上一个非线性变换函数即激活函数,比如sigmoid(当自变量很大或很小时容易出现梯度消失),relu(更常用)。在每层之间相当于有权重矩阵,神经网络是全连接的,很容易出现过拟合,所以神经元的数量不要太大,使用dropout方法在每次迭代时随机去掉一些神经元也可以降低过拟合的风险。