【梯度检验】深度学习专项课程学习记录6——实现梯度检验

最新推荐文章于 2024-01-17 15:37:20 发布

小飞狗狗

最新推荐文章于 2024-01-17 15:37:20 发布

阅读量344

点赞数

分类专栏：吴恩达深度学习文章标签：深度学习学习 numpy 神经网络

本文链接：https://blog.csdn.net/m0_46314771/article/details/125490236

版权

吴恩达深度学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

学习目标

使用Numpy实现梯度检验，理解其原理。

笔记

1.理解梯度检验

导数（梯度）的定义：
$\frac{\partial J}{\partial \theta} = \lim_{\varepsilon \to 0} \frac{J(\theta + \varepsilon) - J(\theta - \varepsilon)}{2 \varepsilon}$
梯度检验：取一个很小的值，记作 $\varepsilon$ ，代入 $\frac{J(\theta + \varepsilon) - J(\theta - \varepsilon)}{2 \varepsilon}$ 计算得到gradapprox，如果gradapprox和梯度grad差异很小（低于一个阈值，一般取 $10^{-7}$ ），则说明之前求导得到的梯度是正确的。

2.实现梯度检验

2.1 一维梯度检验

创建一个变量 $\theta^{+}$ ， $\theta^{+} = \theta + \varepsilon$ ；
创建一个变量 $\theta^{-}$ ， $\theta^{-} = \theta - \varepsilon$ ；
创建一个变量 $J^{+}$ ， $J^{+} = J(\theta^{+})$ ；
创建一个变量 $J^{-}$ ， $J^{-} = J(\theta^{-})$ ；
创建一个变量 $g r a d a p p r o x$ ， $\frac{J^{+} - J^{-}}{2 \varepsilon}$ ；
计算 $g r a d$ ， $J(\theta)$ ；
计算 $d i f f e r e n c e$ ， $\frac {\mid\mid grad - gradapprox \mid\mid_2}{\mid\mid grad \mid\mid_2 + \mid\mid gradapprox \mid\mid_2}$
如果 $difference<10^{-7}$ ，说明梯度计算正确。

其中， $d i f f e r e n c e$ 的计算用python表示是：

numerator =  np.linalg.norm(grad - gradapprox)                                
denominator =  np.linalg.norm(grad) + np.linalg.norm(gradapprox)                         
difference =  numerator /  denominator

2.2 N维梯度检验

N维梯度检验与一维梯度检验不同的是此处的 $\theta$ 不再是标量，而是一个字典（图中parameters），整体的计算思路一致。图中说明了在进行N维梯度检验时要用到的两个函数dictionary_to_vector() 和 vector_to_dictionary() 的用途。
dictionary_to_vector()&vector_to_dictionary().
N维梯度检验（gradient_check_n）的python代码如下：

def gradient_check_n(parameters, gradients, X, Y, epsilon=1e-7, print_msg=False):
    # 创建变量
    parameters_values, _ = dictionary_to_vector(parameters)
    
    grad = gradients_to_vector(gradients)
    num_parameters = parameters_values.shape[0]
    J_plus = np.zeros((num_parameters, 1))
    J_minus = np.zeros((num_parameters, 1))
    gradapprox = np.zeros((num_parameters, 1))
    
    for i in range(num_parameters):
        theta_plus =  np.copy(parameters_values)
        theta_plus[i] =  theta_plus[i][0] + epsilon
        J_plus[i], _ =  forward_propagation_n(X, Y, vector_to_dictionary(theta_plus))

        theta_minus =  np.copy(parameters_values)
        theta_minus[i] =  theta_minus[i][0] -  epsilon
        J_minus[i], _ =  forward_propagation_n(X, Y, vector_to_dictionary(theta_minus))        
        
        gradapprox[i] = (J_plus[i] - J_minus[i]) / (2*epsilon)

    numerator =  np.linalg.norm(grad - gradapprox)                              
    denominator =  np.linalg.norm(grad) + np.linalg.norm(gradapprox)         
    difference =  numerator /  denominator     

    return difference

学习时间

2022.6.27

总结

梯度检验可验证反向传播的梯度与梯度近似值之间的接近度（使用正向传播进行计算）；
梯度检验很慢，用 $\frac{\partial J}{\partial \theta} \approx \frac{J(\theta + \varepsilon) - J(\theta - \varepsilon)}{2 \varepsilon}$ 逼近梯度很耗费资源，通常只需检查几次梯度是否正确。
梯度检验不适用于dropout。先运行不带dropout的梯度检验算法以确保后向传播正确，然后添加dropout。