Coursera 吴恩达 Deep Learning 第2课 Improving Deep Neural Networks 第一周编程作业代码 Initialization

最新推荐文章于 2022-07-12 04:33:08 发布

justry24

最新推荐文章于 2022-07-12 04:33:08 发布

阅读量3.3k

点赞数 1

分类专栏：深度学习Coursera 文章标签：改善深层神经网络 coursera 吴恩达 deep learning 吴恩达 Andrew Ng initialization

本文链接：https://blog.csdn.net/justry24/article/details/78145399

版权

深度学习Coursera 专栏收录该内容

27 篇文章 1 订阅

订阅专栏

2 - Zero initialization

# GRADED FUNCTION: initialize_parameters_zeros

def initialize_parameters_zeros(layers_dims):

"""

Arguments:

layer_dims -- python array (list) containing the size of each layer.

Returns:

parameters -- python dictionary containing your parameters "W1", "b1", ..., "WL", "bL":

W1 -- weight matrix of shape (layers_dims[1], layers_dims[0])

b1 -- bias vector of shape (layers_dims[1], 1)

...

WL -- weight matrix of shape (layers_dims[L], layers_dims[L-1])

bL -- bias vector of shape (layers_dims[L], 1)

"""

parameters = {}

L = len(layers_dims) # number of layers in the network

for l in range(1, L):

### START CODE HERE ### (≈ 2 lines of code)

parameters['W' + str(l)] = np.zeros((layers_dims[l], layers_dims[l-1]))

parameters['b' + str(l)] = np.zeros((layers_dims[l], 1))

### END CODE HERE ###

return parameters

3 - Random initialization

 
  # GRADED FUNCTION: initialize_parameters_random 
 
  def initialize_parameters_random(layers_dims): 
 
      """ 
 
      Arguments: 
 
      layer_dims -- python array (list) containing the size of each layer. 
 
      Returns: 
 
      parameters -- python dictionary containing your parameters "W1", "b1", ..., "WL", "bL": 
 
                      W1 -- weight matrix of shape (layers_dims[1], layers_dims[0]) 
 
                      b1 -- bias vector of shape (layers_dims[1], 1) 
 
                      ... 
 
                      WL -- weight matrix of shape (layers_dims[L], layers_dims[L-1]) 
 
                      bL -- bias vector of shape (layers_dims[L], 1) 
 
      """ 
 
      np.random.seed(3)               # This seed makes sure your "random" numbers will be the as ours 
 
      parameters = {} 
 
      L = len(layers_dims)            # integer representing the number of layers 
    
      for l in range(1, L): 
 
          ### START CODE HERE ### (≈ 2 lines of code) 
 
          parameters['W' + str(l)] = np.random.randn(layers_dims[l], layers_dims[l-1]) * 10  #注意括号的数目 
 
          parameters['b' + str(l)] = np.zeros((layers_dims[l], 1)) 
 
          ### END CODE HERE ### 
 
      return parameters

4 - He initialization

Xavier初始化的基本思想是保持输入和输出的方差一致，这样就避免了所有输出值都趋向于0

He initialization的思想是：在ReLU网络中，假定每一层有一半的神经元被激活，另一半为0，所以，要保持variance不变，只需要在Xavier的基础上再除以2

# GRADED FUNCTION: initialize_parameters_he

def initialize_parameters_he(layers_dims):

"""

Arguments:

layer_dims -- python array (list) containing the size of each layer.

Returns:

parameters -- python dictionary containing your parameters "W1", "b1", ..., "WL", "bL":

W1 -- weight matrix of shape (layers_dims[1], layers_dims[0])

b1 -- bias vector of shape (layers_dims[1], 1)

...

WL -- weight matrix of shape (layers_dims[L], layers_dims[L-1])

bL -- bias vector of shape (layers_dims[L], 1)

"""

np.random.seed(3)

parameters = {}

L = len(layers_dims) - 1 # integer representing the number of layers

for l in range(1, L + 1):

### START CODE HERE ### (≈ 2 lines of code)

parameters['W' + str(l)] = np.random.randn(layers_dims[l], layers_dims[l-1]) * np.sqrt(2./layers_dims[l-1])

parameters['b' + str(l)] = np.zeros((layers_dims[l], 1))

### END CODE HERE ###

return parameters

疑问：

If you have heard of "Xavier initialization", this is similar except Xavier initialization uses a scaling factor for the weights W [ l ] W[l] of sqrt(1./layers_dims[l-1])

实验中提到的 Xarier 初始化分布为正态分布随机化后除以 “sqrt（上一层结点数目）”

然而在论文中， Xavier 初始化的分布为均匀分布：