初始化
- 初始化的时候不能用全0初始化权重矩阵W,不会收敛。(因为激活函数的原因,在输出层,0初始化就没有问题,但是收敛的要慢一点)
- b的初始化可以用全0初始化or0.1初始化
- 权重初始化有 基于高斯分布(gaussian distribution)Xavier MSRA
调参
- 按顺序调参,并记录每次调参数据
- 学习率,指数衰减法:tf.train.exponential_decay,对应的链接:https://blog.csdn.net/u011012422/article/details/72808898?utm_source=itdadao&utm_medium=referral
损失函数
- 交叉熵用于分类问题
- MSE( mean square error)均方误差 用于回归问题
- 一般在交叉熵和MSE上加正则,l1和l2。
- 交叉熵和MSE作用于参数(即X),l1和l2作用于权重矩阵。
遇到的困惑
- 会出现NaN,在单元个数较大时出现
- 调好的参数,但是准确率变化较大。