设训练样本有n个数据
要拟合的函数(即求出最佳的θ):
损失函数公式
梯度下降(Gradient Descent),一次更新θ,使用训练样本中所有样本
随机梯度下降(Stochastic Gradient Descent),一次更新θ,使用训练样本中一个数据
批量梯度下降(Batch Gradient Descent), 一次更新θ,使用训练样本中一批训练数据
(Batch的大小可选,相当于对梯度下降与随机梯度下降的折衷)
设训练样本有n个数据
要拟合的函数(即求出最佳的θ):
损失函数公式
梯度下降(Gradient Descent),一次更新θ,使用训练样本中所有样本
随机梯度下降(Stochastic Gradient Descent),一次更新θ,使用训练样本中一个数据
批量梯度下降(Batch Gradient Descent), 一次更新θ,使用训练样本中一批训练数据
(Batch的大小可选,相当于对梯度下降与随机梯度下降的折衷)