此文章以 均方误差 的损失函数为例
假设样本 为 矩阵,即 个样本(假设为 65536 个), 维特征。
学习率:
1 批量梯度下降法(batch Gradent Descent)
简介:每次利用所有样本(个)来进行损失计算,然后利用所有样本(个)来计算导数,最后更新参数。
-
计算损失
作用:计算所有样本集(个)的误差和
公式:
-
梯度下降
作用:利用所有样本(个)来计算所有权重 和偏置 的导数,然后更新一次参数。
公式:
此文章以 均方误差 的损失函数为例
假设样本 为 矩阵,即 个样本(假设为 65536 个), 维特征。
学习率:
简介:每次利用所有样本(个)来进行损失计算,然后利用所有样本(个)来计算导数,最后更新参数。
作用:计算所有样本集(个)的误差和
公式:
作用:利用所有样本(个)来计算所有权重 和偏置 的导数,然后更新一次参数。
公式: