概述
常规的神经网络我们可以知道包括:输入层,隐藏层,输出层
如:
- 输入层是1*2矩阵X;
- 隐藏层为1*50的矩阵H;
- 输出层为1*4的矩阵Y
- 参数W1为2*50的矩阵
- 参数W2为50*4的矩阵
传播过程为:H=X*W1+b1;Y=H*W2+b2
激活层
需要注意:一系列线性方程的运算最终都可以用一个线性方程表示。也就是说,上述两个式子联立后可以用一个线性方程表达。对于两次神经网络是这样,就算网络深度加到100层,也依然是这样。这样的话神经网络就失去了意义。因此引入了激活层
常用的激活函数有三种,分别是阶跃函数、Sigmoid和ReLU
输出的正规化——Softmax
输出的结果是值得表达,我们想让最终的输出为概率,不仅可以找到最大概率的分类,而且可以知道各个分类计算的概率值,这部分操作称为Softmax
操作如下:
其中 i 为输出值,Si 为 i 的概率。
输出结果的好坏的量化——交叉熵损失
常规的处理过程:对数的负数, 即:,计算结果值越接近于0,说明结果越准确。
我们训练神经网络的目的,就是尽可能地减少这个“交叉熵损失”。
总结
因此一个常规的神经网络模型如下:
- 包括基本的输入层,隐藏层,输出层
- 包括参数W和b
- 包括激活层;“Softmax”层;交叉熵损失
神经网络总结:
- 传播形式:都是形如Y=WX+b的矩阵运算
- 中间处理:为了给矩阵运算加入非线性,需要在隐藏层中加入激活层
- 输出结果:输出层结果需要经过Softmax层处理为概率值,并通过交叉熵损失来量化当前网络的优劣