Improving Deep Neural Networks[3]

最新推荐文章于 2020-12-20 22:01:44 发布

karlzpsong

最新推荐文章于 2020-12-20 22:01:44 发布

阅读量217

点赞数

分类专栏： Deep Learning 学习笔记文章标签：深度学习吴恩达 DeepLearning 神经网络机器学习

本文链接：https://blog.csdn.net/weixin_40005329/article/details/102794267

版权

学习笔记同时被 2 个专栏收录

20 篇文章 2 订阅

订阅专栏

Deep Learning

4 篇文章 0 订阅

订阅专栏

Improving Deep Neural Networks[3]

对吴恩达老师的《优化深度神经网络》课程作业知识进行总结。

梯度检测 Gradient Checking

首先，明确梯度检测的目的：梯度检测是一个用于检测在反向传播过程中，是否正确计算了梯度的方法。在本节中，吴恩达老师举了一个例子说明梯度检测的使用情况：

在公司或团队的工作中，你的上司要求你证明自己的反向传播部分计算的导数都是正确的，此时，就需要利用梯度检测来进行确认证明了。

1 梯度检测的工作原理

反向传播过程中，我们会计算J关于各个参数的梯度： $\dfrac{\partial J}{\partial \theta}$ ，其中 $\theta$ 是有关的参数。

前向传播的结构非常简单，几乎没有计算的过程，因此，我们几乎可以100%认为前向传播得到的 $J$ 是可靠的。

梯度检测正是利用 $J$ 来进行检测的。

梯度的计算公式定义如下：
$\frac{\partial J}{\partial \theta}=\lim _{\varepsilon \rightarrow 0} \frac{J(\theta+\varepsilon)-J(\theta-\varepsilon)}{2 \varepsilon}$
可以知道，公式左侧的梯度正是我们需要验证的；

在前向传播得到 $J$ 之后，我们可以取一个足够小的值 $\epsilon$ ，依据公式右侧的式子计算并验证。

2 N维梯度检测 N-dimensional Gradient Check

根据工作原理，使用以下代码进行检测：

def gradient_check_n(parameters, gradients, X, Y, epsilon = 1e-7):

    # Set-up variables
    parameters_values, _ = dictionary_to_vector(parameters)
    grad = gradients_to_vector(gradients)
    num_parameters = parameters_values.shape[0]
    J_plus = np.zeros((num_parameters, 1))
    J_minus = np.zeros((num_parameters, 1))
    gradapprox = np.zeros((num_parameters, 1))
    
    # Compute gradapprox
    for i in range(num_parameters):
        theta_plus = np.copy(parameters_values)
        theta_plus[i][0] += epsilon
        J_plus[i], _ = 
        	forward_propagation_n(X, Y, vector_to_dictionary(theta_plus))

        theta_minus = np.copy(parameters_values)
        theta_minus[i][0] -= epsilon
        J_minus[i], _ = 
        	forward_propagation_n(X, Y, vector_to_dictionary(theta_minus))

        # Compute gradapprox[i]
        gradapprox[i] = (J_plus[i] - J_minus[i]) / (2 * epsilon)
    
    difference = 
    	(np.linalg.norm(grad - gradapprox)) / 
        (np.linalg.norm(grad) + np.linalg.norm(gradapprox))

    if difference > 1e-7:
		...
	return difference

在完成grad计算（反向传播）以及gradapprox计算（梯度定义）后，利用欧氏距离进行度量：
$\text {difference}=\frac{\| \text { grad }-\text {gradapprox} \|_{2}}{\| \text { grad }\left\|_{2}+\right\| \text { gradapprox } \|_{2}}$
在代码中，利用了 np.linalg.norm() 计算范数。