- 对输入输出数据标准化
- 选用的激活函数为:f(x)=1.7159tanh(2x/3)
- 参数初始化:参数就应该从一个均值为0,标准差为σw=m-1/2的分布(例如正态分布)中采样得到。
- 学习率:
A、 给每个参数自己的学习率;
B、 学习率应该和该节点的输入个数的平方根成比例;
C、 低层参数的学习率应该比高层的大。
自适应学习率
参考文献:
[1] LeCun等.“Neural Networks: Tricks of the Trade”第一章 Efficient BackProp
参考文献:
[1] LeCun等.“Neural Networks: Tricks of the Trade”第一章 Efficient BackProp