经典网络
LeNet-5
共有约60k个参数,
特点
- 在论文中,激活函数使用的是sigmoid和tanh,那个时候还未使用ReLU.
- 当时出于节约计算力的考虑,不同的卷积核计算了不同的channel。(这里等之后看了论文补充)
- 池化层后添加了非线性激活函数(sigmoid),而现在很少这样使用。
LeCun et al.,1998. Gradient-based learning applied to document recognition
论文Section2讨论了网络的架构,Section3讨论了实验结果。
AlexNet
特点
- 与LeNet类似,但是更大,约60m参数量。
- 使用了ReLU
- 多GPU训练
- Local Response Normalization(LRN) channel-wise normalization。现在并不常用