写在前面
这篇文章将从3个角度:加权、模版匹配与几何来理解最后一层全连接+Softmax。掌握了这3种视角,可以更好地理解深度学习中的正则项、参数可视化以及一些损失函数背后的设计思想。
全连接层与Softmax回顾
深度神经网络的最后一层往往是全连接层+Softmax(分类网络),如下图所示,图片来自StackExchange。
先看一下计算方式:全连接层将权重矩阵与输入向量相乘再加上偏置,将 n n n nn n nnnyj^=softmax(zj)=∑Kezjezj
总结
本文介绍了3种角度来更直观地理解全连接层+Softmax,
- 加权角度,将权重视为每维特征的重要程度,可以帮助理解L1、L2等正则项
- 模板匹配角度,可以帮助理解参数的可视化
- 几何角度,将特征视为多维空间中的点,可以帮助理解一些损失函数背后的设计思想(希望不同类的点具有何种性质)
视角不同,看到的画面就不同,就会萌生不同的idea。有些时候,换换视角问题就迎刃而解了。
以上。