一、论文背景和前期知识
在数据分析中,人去做特征工程,人去分类
在机器学习,人做特征工程,机器学习模型例如决策树、GBDT去做分类
在深度学习中,CNN是做特征工程的,Softmax、SVM做分类
LeNet——CNN+SVM(RBF),用到的还是机器学习的东西,没有什么价值
研究一个网络,就是要研究一个网络提取特征的能力是否强
网络太深会导致的问题:
1.参数过多,计算时间太长,硬件无法满足需求
2.过拟合,网格退化,梯度消失或梯度爆炸
数据集:
机器学习——train,test
深度学习——train,test,validation
validation:一边训练一边测试用的
训练一个深度学习模型,样本最少不要少于5万
深度学习每次传入64或者128张
5万张全部跑完一遍就是一个epoch
一个模型跑不超过1000个epoch
lost-epoch图像中,到某个点lost不再减少,那么这个点就叫做early-stop点
这个early-stop点就是在validation跑的时候找到的
二、论文结构
- Abstract: 简单介绍了AlexNet网络的结构、贡献以及取得的结构
- Introduction: 神经网络在了算力更好的gpu与更强大的数据集后会取得更好的效果
- The Dataset: ILSVRC与ImageNet数据集介绍
- Details of learning: 网络超参数设置,权重及偏置的初始化
- Reducing Overting: 数据增强、Dropout
- The Architecture: ReLU,两个GPU训练,LRN,Overlapping pooling,网络整体结构
- Results: 详细介绍了AlexNet网络在比赛中取得的结果
- Qualitative Evaluations: 给出来做的实验,展示了卷积核学习到的内容,同一类图像特征的欧式距离更近
- Discussion: 结论说明了,神经网络可以很好的完成图像分类的任务
三、细节知识点
1.非线性单元:
ReLU:
f ( x ) = m a x ( 0 , x ) f(x)=max(0,x) f(x)=max(0,x)
ReLU的优点:
1.可以使网络训练更快
- 反向传播会涉及激活函数的求导,相比tanh,sigmoid而言,ReLU的导数更好求,tanh,sigmoid含指数,它们指数的求导相对来说慢一些
2.增加网络的非线性
- ReLU为非线性函数,加入到神经网络中可以使网络拟合非线性的映射,因此增加了网络的非线性化
3.防止梯度消失
- 当数值过大或者偏小时,sigmoid,tanh的导数值都接近于0,导致反向传播过程中出现梯度消失,ReLU为非饱和激活函数,不存在此问题
4.使网络具有稀疏性
- ReLU可以使一些神经元输出为0,因此可以增加网络的稀疏性
Sigmoid
- 表达式: f ( x ) = 1 1 + e − x f(x)=\frac{1}{1+e^{-x}} f(x)=1+e−x1
- 导数: f ( x ) ( 1 − f ( x ) ) f(x)(1-f(x)) f