计算机视觉06:机器学习基础
文章目录
1. 深度学习基础
1. 神经网络和深度学习
2. 目标函数
3. 激活函数
4. 学习步长
学习步长应该越来越小。
5.SGD(随机梯度下降)问题
1.动量(一阶)
2.Adagrad(二阶)
前面的sgd是对所有的参数统一求导和下降的,但是由于实际数据中可能存在这样一种情况:有些参数已经近乎最优,因此只需要微调了,而另一些可能还需要很大的调整。这种情况可能会在样本较少的情况下出现,比如含有某一特征的样本出现较少,因此被代入优化的次数也较少,这样就导致不同参数的下降不平衡。adagrad就是来处理这类问题的。
adagrad的基本想法是,对每个参数theta自适应的调节它的学习率,自适应的方法就是对每个参数乘以不同的系数,并且这个系数是通过之前累积的梯度大小的平方和决定的,也就是说,对于之前更新很多的,相对就可以慢一点,而对那些没怎么更新过的,就可以给一个大一些的学习率。
陡坡:小心往下走;缓坡:走的大步一些。
3. RMSprop(二阶)
这个实际上是对adagrad的一个改进,也就是把Adagrad对历史梯度加和变成了对历史梯度求均值(当然这个不是严格意义上的均值(含参数)),然后用这个均值代替Adagrad的累加的梯度和对当前梯度进行加权,并用来update。
用均值代替求和是为了解决Adagrad的学习率逐渐消失的问题。
4.Adam(1阶+2阶)
5. 各种梯度下降算法的比较
6. Batch Normalization(有点像正则化)
6. 避免过适应
1. 早期停止训练
2. 权重衰减
3. Dropout
2. CNN初步介绍
1. 卷积层
2. 池化层
池化和步长为2可以缩小。
3. CNN-Softmax
4. 卷积层的误差反向传播
重要链接
https://zhuanlan.zhihu.com/p/44361349
5. 池化层的误差反向传播