优化算法（一）SGD算法实现

最新推荐文章于 2024-07-31 14:47:45 发布

Bazingaea

最新推荐文章于 2024-07-31 14:47:45 发布

阅读量7.2k

点赞数 1

分类专栏： machine learning 文章标签： SGD 深度学习神经网络

本文链接：https://blog.csdn.net/Bazingaea/article/details/83690183

版权

本文介绍了SGD（随机梯度下降）算法，对比了它与GD（梯度下降）的区别。SGD每次迭代仅用一个样本更新参数，以减少cost值。在实践中，可能会遇到cost值停滞或过拟合问题。解决方案包括调整参数初始化、减小学习因子或增加网络复杂度。代码演示和优化建议使理解更为深入。

摘要由CSDN通过智能技术生成

SGD随机梯度下降算法，和最常用的GD相比，GD每一次迭代都是所有样本都一起进行计算，而SGD是每一次迭代中每个样本分别进行计算，梯度算法的最终目标是减少cost值，训练出最优的参数值，GD每一次迭代都让所有样本去优化参数，一次迭代进行一次优化，而SGD一次只让一个样本去优化参数。

贴一下代码：

#SGD（w初始化使用 2/sqrt（l-1））
def SGD_model(X,Y,layer_dims,iter_times,alphs):
    costs = []
    m = X.shape[1]
    n = X.shape[0]
    np.random.seed(3)
    parameters = initialize_parameters(layer_dims)
    for i in range(0,iter_times):
        for j in range(0,m):
            A,caches=forward_propagation(X[:,j].reshape(n,1),parameters)
            cost=cpmpute_cost(A,Y[:,j].reshape(1,1))
            grads=back_propagation(Y[:,j].reshape(1,1),caches,parameters)
            parameters=update_parameters(parameters,grads,alphs)
            costs.append(cost)
        if i%100 == 0:
            print(cost)
    return costs,parameters