1 RMSProp
改进的是Adagrad中 对所有之前的梯度求平方和,会导致最后分母很大,参数更新越来越小
相比于 Adagrad,RMSProp也是整合了所有之前的梯度,但是Adagtad是直接求和,这边是加权求和,每个梯度对应的权重是不相同的
这个值可以手动调整
α越小,表示越相信最新的梯度
和momentum一样,越早的梯度,对于后面的影响越少(指数级减少)
2 AdaDelta
2.1 第一版AdaDelta
和RMSProp 很类似(个人感觉是一个东西?)
2.2 第二版AdaDelta
第一版adaDelta和RMSProp 的问题在于,学习率η还是需要人为定的,如果太大的话,会导致学习的时候更新幅度很震荡,如果太小的话,会导致学习得很慢
所以这里对AdaDelta进行了进一步的改进:
其中
这样的话AdaDelta 就不依赖于学习率η的选择了