SGD随机梯度下降算法,和最常用的GD相比,GD每一次迭代都是所有样本都一起进行计算,而SGD是每一次迭代中每个样本分别进行计算,梯度算法的最终目标是减少cost值,训练出最优的参数值,GD每一次迭代都让所有样本去优化参数,一次迭代进行一次优化,而SGD一次只让一个样本去优化参数。
贴一下代码:
#SGD(w初始化使用 2/sqrt(l-1))
def SGD_model(X,Y,layer_dims,iter_times,alphs):
costs = []
m = X.shape[1]
n = X.shape[0]
np.random.seed(3)
parameters = initialize_parameters(layer_dims)
for i in range(0,iter_times):
for j in range(0,m):
A,caches=forward_propagation(X[:,j].reshape(n,1),parameters)
cost=cpmpute_cost(A,Y[:,j].reshape(1,1))
grads=back_propagation(Y[:,j].reshape(1,1),caches,parameters)
parameters=update_parameters(parameters,grads,alphs)
costs.append(cost)
if i%100 == 0:
print(cost)
return costs,parameters