深度学习优化算法介绍和简要代码（吴恩达）

最新推荐文章于 2022-05-31 01:13:04 发布

PengxiangZhou

最新推荐文章于 2022-05-31 01:13:04 发布

阅读量878

点赞数 1

分类专栏：深度学习文章标签：深度学习神经网络随机梯度下降

本文链接：https://blog.csdn.net/weixin_43464554/article/details/117002231

版权

神经网络前向传播后向传播过程

    # Loop (gradient descent)
    for i in range(0, num_iterations):

        # Forward propagation: [LINEAR -> RELU]*(L-1) -> LINEAR -> SIGMOID.
        AL, caches = L_model_forward(X, parameters)
        
        # Compute cost.
        cost = compute_cost(AL, Y)
    
        # Backward propagation.
        grads = L_model_backward(AL, Y, caches)
 
        # Update parameters.
        parameters = update_parameters(parameters, grads, learning_rate)
                
        # Print the cost every 100 training example
        if print_cost and i % 100 == 0:
            print ("Cost after iteration %i: %f" %(i, cost))
        if print_cost and i % 100 == 0:
            costs.append(cost)

初始化参数

初始化参数不能全部初始化为0，否则所有的输出都是0，则不能打破symmetry，每次输出都是相同的结果。注意w必须要random，b不一定

parameters['W' + str(l)] = np.zeros((layers_dims[l],layers_dims[l-1]))

初始化参数时，如果参数随机得太多或者太小，当预测错误时，且 $w x + b$ 很大很小时，由于损失函数很大，甚至趋于无穷，可能会出现多次训练但是很难得到好的结果。
$-\frac{1}{m} \sum\limits_{i = 1}^{m} (y^{(i)}\log\left(a^{[L] (i)}\right) + (1-y^{(i)})\log\left(1- a^{[L](i)}\right))$

parameters['W' + str(l)] = np.random.randn(layers_dims[l],layers_dims[l-1])*10

He initialization，减小初始化权重的大小，使得所得到的输出不会太大或太小

parameters['W' + str(l)] = np.random.randn(layers_dims[l],layers_dims[l-1])*np.sqrt(2./layers_dims[l-1])

正则化

惩罚项
原来的损失函数
$-\frac{1}{m} \sum\limits_{i = 1}^{m} \large{(}\small y^{(i)}\log\left(a^{[L](i)}\right) + (1-y^{(i)})\log\left(1- a^{[L](i)}\right) \large{)} \tag{1}$
加入惩罚项的损失函数
$J_{regularized} = \small \underbrace{-\frac{1}{m} \sum\limits_{i = 1}^{m} \large{(}\small y^{(i)}\log\left(a^{[L](i)}\right) + (1-y^{(i)})\log\left(1- a^{[L](i)}\right) \large{)} }_\text{cross-entropy cost} + \underbrace{\frac{1}{m} \frac{\lambda}{2} \sum\limits_l\sum\limits_k\sum\limits_j W_{k,j}^{[l]2} }_\text{L2 regularization cost} \tag{2}$

最低0.47元/天解锁文章

PengxiangZhou

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
深度学习优化算法介绍和简要代码（吴恩达）

神经网络前向传播后向传播过程 # Loop (gradient descent) for i in range(0, num_iterations): # Forward propagation: [LINEAR -> RELU]*(L-1) -> LINEAR -> SIGMOID. AL, caches = L_model_forward(X, parameters) # Compute cost.
复制链接

扫一扫