用深层神经网络识别猫咪图片：吴恩达Course1-神经网络与深度学习-week3&week4作业

最新推荐文章于 2022-09-22 19:01:04 发布

蛋挞挞挞

最新推荐文章于 2022-09-22 19:01:04 发布

阅读量1.8k

点赞数 1

分类专栏：深度学习文章标签：深度学习神经网络 python

本文链接：https://blog.csdn.net/u011909077/article/details/104244805

版权

本文介绍了如何构建深层神经网络用于猫咪图片识别，从参数初始化到前向传播、反向传播和参数更新，通过对比二层网络，展示深层网络在提升测试集准确率上的优势。最后分析了误分类原因并提出优化方向。

摘要由CSDN通过智能技术生成

代码有参考吴恩达老师的源代码，神经网络的图片为转载，图片来源见水印

以下文件的【下载地址】，提取码：dv8a

所有文件存放位置
C:.
│  dnn_utils.py
│  building deep neural network：step by step.py
│  lr_utils.py
│  testCases.py
│
├─datasets
        test_catvnoncat.h5
        test_image1.png
        test_image2.png
        train_catvnoncat.h5

一些要点

神经网络的层数：指隐藏层+输出层的层数
二层神经网络：有一个输入层、一个隐藏层、一个输出层的神经网络
L层神经网络：有一个输入层、L-1个隐藏层、第L层为输出层的神经网络

——假如对于每个隐藏层，我们都使用[线性传播+同一非线性函数激活]的方式，则构建L层神经网络，无非是将二层神经网络对隐藏层的运算，重复L-1次

深层网络的参数初始化方式不同于二层网络，网络层次越高，越容易产生梯度消失/梯度爆炸现象，这里对深层网络使用Xaiver初始化（在网上看到很多同学的cost卡在0.64降不下去就是这个坑）

来自大佬的形象表达

深层网络的实现步骤

参数初始化-> [实现前向线性传播 -> 实现前向线性激活 -> 实现完整的前向传播] -> 计算成本 -> [实现反向线性传播 -> 实现反向线性激活 -> 实现完整的反向传播] -> 参数更新

这里会对比二层网络和深层网络的测试集准度，使用深层网络对本地图片进行识别

导入库

import numpy as np
from matplotlib import pyplot as plt
import testCases
from dnn_utils import sigmoid, sigmoid_backward, relu, relu_backward
import lr_utils
# 测试本地图片时使用
import imageio
import cv2

设置随机种子并初始化

np.random.seed(1)
# 初始化[二层神经网络]的参数
def initialize_parameters(n_x, n_h, n_y):
    """
    :param n_x: x的特征数量
    :param n_h: 隐藏层节点数量
    :param n_y: 输出层的特征数量
    """
    W1 = np.random.randn(n_h, n_x)*0.01
    b1 = np.zeros(shape=(n_h, 1))
    W2 = np.random.randn(n_y, n_h)*0.01
    b2 = np.zeros(shape=(n_y, 1))
    parameters = {
   'W1': W1, 'b1': b1, 'W2': W2, 'b2': b2}
    return parameters
# 初始化[深层神经网络]的参数
def initialize_parameters_deep(layer_dims):
    """
    :param layer_dims: 列表，从输入层至输出层，每层的节点数量
    """
    parameters = {
   }
    L = len(layer_dims) - 1                         # 输出层的下标
    for l in range(1, L+1):
        # 使用Xaiver初始化，防止梯度消失或爆炸
        parameters['W'+str(l)] = np.random.randn(layer_dims[l], layer_dims[l-1])/np.sqrt(layer_dims[l - 1])
        parameters['b'+str(l)] = np.zeros(shape=(layer_dims[l], 1))
    return parameters

前向传播

# 前向传播中的线性传播
def linear_forward(A_prev, W, b):
    """
    :param A_prev: 上一层传递到本层的A
    :param W: 本层的权重矩阵
    :param b: 本层的偏置项
    :return: 本层计算的Z
    """
    Z = np.dot(W, A_prev) + b
    cache = (A_prev, W, b)
    assert(Z.shape==(W.shape[0], A_prev.shape[1]))
    return Z, cache
# 前向传播中的线性激活
def linear_and_activation_forward(A_prev, W, b, activation='relu'):
    """
    :param activation: 字符串，激活函数名称
    """
    Z, linear_cache = linear_forward(A_prev, W, b)

    # 按激活函数执行激活步骤
    if activation == 'sigmoid':
        A, activation_cache = sigmoid(Z)            # 缓存的是Z
    elif activation == 'relu':
        A, activation_cache = relu(Z)

    assert(A.shape==Z.shape)
    cache = (linear_cache, activation_cache)
    return A, cache
# 完整的前向传播
def L_model_forward(X, parameters):
    caches = [