损失函数(loss):预测值y 与已知答案y_的差距:
NN优化目标:loss最小;1.mse(均方误差) 2自定义 3.ce(Cross Entropy)
均方误差mse:loss_mse = tf.reduce_mean(tf.aquare(y_-y))
学习率:设置合适的学习率很重要(固定的学习率)
定义指数下降学习率:学习率随着训练轮数变化而动态更新
Tensorflow 的函数表示为:global_step=tf.Variable(0,trainable=False)global_step 记录了当前训练轮数,为不可训练型参数。
learning_rate=tf.train.exponential_decay(LEARNING_RATE_BASE,global_step,LEARNING_RATE_STEP,LEARNING_RATE_DECAY,staircase=True/False)其中,
LEARNING_RATE_BASE 为学习率初始值,LEARNING_RATE_DECAY 为学习率衰减率,学习率 learning_rate 更新频率为输入数据集总样本数除以每次喂入样本数。若 staircase 设置为 True 时,表示 global_step/learning rate step 取整数,学习率阶梯型衰减;若 staircase 设置为 false 时,学习率会是一条平滑下降的曲线。
滑动平均:记录每个参数一段时间内过往值得平均,增加了模型的泛化能力。针对所有参数:w,b(像是给了参数加了影