参数initialize和loss设计
Google的工程师Ali Rahimi在他获得一项大奖之后的发言中称,深度学习成为了今天的炼金术。深度学习除了一些基本的理论保证外,还需要一些黑魔法来帮助模型收敛和学习。参数的初始化和loss设计就是其中比较常用的方法。
参数初始化
由于深度网络的特性,求解最佳参数的任务是非凸的,不能稳定收敛到最小值。所以模型参数的初始化对于收敛的影响很大。有下面几种初始化方法:
1. 常数初始化。
这个是一个错误的示范,由于模型的对称性,如果全部初始化为一个值时,由于参数的更新梯度一致,会导致模型退化,参数失去差异。通常会加入随机项来避免这种情况。实现参照tf.constant_initializer()。
2. 正态分布初始化。
自然界中许多看似随机事件通常都满足正态分布,使用正态分布来初始化参数是一个自然而然的想法。实现参照tf.random_normal_initializer()。由于正态分布的范围为[-∞,+∞],为避免偶然异常值出现,也可对参数大小进行截断。实现参照tf.truncated_normal_initializer()。
3. 均匀分布初始化。
均匀分布生成的随机数并不是从小到大或者从大到小均匀分布的,这里均匀分布的意义是每次从一组服从均匀分布的数里边随机抽取一个数。实现参照tf.random_uniform_initializer()。
4. Xavier初始化,也称Glorot初始化。
这是本文着重讲解的部分。Xavier初始化方法是一种很有效的神经网络初始化方法,方法来源于2010年的一篇论文《U