Coursera | Andrew Ng (01-week4)—深层神经网络

最新推荐文章于 2022-11-09 08:08:03 发布

ZJ_Improve

最新推荐文章于 2022-11-09 08:08:03 发布

阅读量351

点赞数

分类专栏：深度学习 | 吴恩达- Notes重点总结文章标签：深层深度学习吴恩达神经网络

本文链接：https://blog.csdn.net/JUNJUN_ZHAO/article/details/79228850

版权

深度学习 | 吴恩达- Notes重点总结专栏收录该内容

16 篇文章 1 订阅

订阅专栏

在吴恩达深度学习视频以及大树先生的博客提炼笔记基础上添加个人理解，原大树先生博客可查看该链接地址大树先生的博客- ZJ

Coursera 课程 |deeplearning.ai |网易云课堂

CSDN：http://blog.csdn.net/junjun_zhao/article/details/79228850

4.1 Deep Neural Network （深层神经网络）

神经网络层数表示：只算隐含层和输出层，不算输入层。

符号约定:

这里写图片描述

L = 4 (# layers)

$n^{[l]}$ = # units in layer $l$

hidden layer : $n^{[1]}=5,n^{[2]}=5,n^{[3]}=3$ 隐含层

output layer : $n^{[4]}=n^{[L]}=1$ 输出层

input layer: $n^{[0]}=n_x=3$ 输入层

$a^{[l]}$ =activations in layer $l$ 激活函数层

$a^{[l]}=g^{[l]}(Z^{[l]})$

$W^{[l]}=$ weights for $Z^{[l]}$

$b^{[l]}$ is used to compute $z^{[l]}$

$x=a^{[0]}$ 输入特征 $x$ 也是第 0 层激活函数

$\hat{y}=a^{[L]}$ 预测输出也是激活函数第 $l$ 层

4.2 Forward and Backward Propagation (前向和反向传播)

构成深度神经网络的基本模块：每一层都有前向传播的步骤，以及一个相对的反向传播步骤。

前向传播 Forward Propogation for layer $l$ :

$Input : a^{[l-1]}$ // a 符号代表激活函数层，当 $l$ = 1 时，则 $a^{[0]}$ 为特征 $x$

$Output: a^{[l]} ,cache (z^{[l]}), w^{[l]} , z^{[l]}$

对比看：( $z=w^{T}x +b$ )

$z^{[l]}=w^{[l]}a^{[l-1]}+b^{[l]}$

对比看：（ $a=\sigma{（z）}$ ）

$a^{[l]}=g^{[l]}(z^{[l]})$

Vectorized 将以上向量化：

$Z^{[l]}=W^{[l]}A^{[l-1]}+b^{[l]}$

$A^{[l]}=g^{[l]}(Z^{[l]})$

$a^{[0]}$ ：是对于一个训练样本的输入特征。

$A^{[0]}$ ：是针对一整个训练集的话输入特征。

反向传播（Backward propagation）

$Input：da^{[l]}$

$Output： da^{[l-1]}，dW^{[l]}，db^{[l]}$

公式：

$dz^{[l]}=da^{[l]} * g^{[l]}{'}(z^{[l]})\\dW^{[l]}=dz^{[l]}\cdot a^{[l-1]}\\db^{[l]}=dz^{[l]}\\da^{[l-1]}=W^{[l]}{^T}\cdot dz^{[l]}$

$da^{[l-1]}代入dz^{[l]}$ ，有：

$dz^{[l]}=W^{[l+1]}{^T}\cdot dz^{[l+1]}* g^{[l]}{'}(z^{[l]})$

向量化：

$dZ^{[l]}=dA^{[l]} * g^{[l]}{'}(Z^{[l]})\\dW^{[l]}=\dfrac{1}{m}dZ^{[l]}\cdot A^{[l-1]}\\db^{[l]}=\dfrac{1}{m}np.sum(dZ^{[l]},axis=1,keepdims = True)\\dA^{[l-1]}=W^{[l]}{^T}\cdot dZ^{[l]}$

上面这部分可以结合 Coursera | Andrew Ng (01-week-3-3.9)—神经网络的梯度下降法以及 Coursera | Andrew Ng (01-week-3-3.10)—直观理解反向传播回忆一下中间省略的求导过程。

大致提一下：

$a=\sigma{(z)}=\dfrac{1}{1+e^{-z}}$

$\sigma{(z)}{'}=a(1-a)$

又因为 $da=\dfrac{-y}{a}+\dfrac{(1-y)}{1-a}$

且 $dz=\dfrac{dL}{da} \cdot \dfrac{da}{dz}=da \cdot g(z)^{'}$

剩下的再根据上面两个链接去推导就可以了。

反向传播辅助理解：已知输入 $da^{[l]}$ , 最终要求得的是 $da^{[l-1]}$ ，但是中间需要先求出 $dz^{[l]}$ ,然后才可以得出 $dw^{[l]}$ , $db^{[l]}$ ,最终求得 $da^{[l-1]}$

4.3 Forward propagation in a deep neural network 深层网络中的前向传播

$x=a^{[0]}$

$z^{[1]}=w^{[1]}a^{[0]}+b^{[1]}\\a^{[1]}=g^{[1]}(z^{[1]})\\z^{[2]}=w^{[2]}a^{[1]}+b^{[2]}\\a^{[2]}=g^{[2]}(z^{[2]})\\ .\\.\\.\\z^{[4]}=w^{[4]}a^{[3]}+b^{[4]}\\a^{[4]}=g^{[4]}(z^{[4]})=\hat{y}$

基本规律：

$z^{[l]}=w^{[l]}a^{[l-1]}+b^{[l]}\\a^{[l]}=g^{[l]}(z^{[l]})$

向量化：

$X=A^{[0]}$

$Z^{[1]}=W^{[1]}A^{[0]}+b^{[1]}\\A^{[1]}=g^{[1]}(Z^{[1]})\\Z^{[2]}=W^{[2]}A^{[1]}+b^{[2]}\\A^{[2]}=g^{[2]}(Z^{[2]})\\ .\\.\\.\\Z^{[4]}=W^{[4]}A^{[3]}+b^{[4]}\\A^{[4]}=g^{[4]}(Z^{[4]})=\hat{Y}$

基本规律：

$Z^{[l]}=W^{[l]}A^{[l-1]}+b^{[l]}\\A^{[l]}=g^{[l]}(Z^{[l]})$

4.4 Getting your matrix dimensions right (核对矩阵的维数)

$z^{[1]}=w^{[1]}\cdot X+b^{[1]}\\(3,1) ←(3, 2) * (2,1)\\(n^{[1]},1)←(n^{[1]},n^{[0]}) (n^{[0]},1)$

$w^{[1]}:(n^{[1]},n^{[0]})\\w^{[2]}:(5,3) , (n^{[2]},n^{[1]})\\z^{[2]}=w^{[2]}\cdot a^{[1]}+b^{[2]}\\(5,1)←(5,3)(3,1)$

$w^{[3]}:(4,5)\\w^{[4]}:(2,4)\\w^{[5]}:(1,2)$

Summary：

$w^{[l]}:(n^{[l]},n^{[l-1]})$

$b^{[1]}:(3,1) (n^{[1]},1)\\b^{[2]}:(5,1) (n^{[2]},1)$

$b^{[l]}:(n^{[l]},1)$

$dw^{[l]}:(n^{[l]},n^{[l-1]})\\db^{[l]}:(n^{[l]},1)$

$z^{[l]}=g^{[l]}(a^{[l]})$ $z$ 和 $a$ 的维度应该相等

$z^{[1]}=w^{[1]}\cdot x+ b^{[1]}\\(n^{[1]},1)←(n^{[1]},n^{[0]})(n^{[0]},1) (n^{[1]},1)$

向量化：

$Z^{[1]}=W^{[1]}\cdot X+ b^{[1]}\\(n^{[1]},m)←(n^{[1]},n^{[0]})(n^{[0]},m) (n^{[1]},1)$

其中 $b^{[1]}:(n^{[1]},1)$ 经 Python broadcasting → $(n^{[1]},m)$

${center}z^{[l]},a^{[l]}:(n^{[l]},1)\\Vectoried:\\Z^{[l]},A^{[l]}:(n^{[l]},m)\\l=0 A^{[0]}=X=(n^{[0]},m)\\dZ,dA:(n^{[l]},m)$

4.5 Why deep representations? 为什么使用深层表示

为什么使用深层表示

人脸识别和语音识别：

对于人脸识别，神经网络的第一层从原始图片中提取人脸的轮廓和边缘，每个神经元学习到不同边缘的信息；网络的第二层将第一层学得的边缘信息组合起来，形成人脸的一些局部的特征，例如眼睛、嘴巴等；后面的几层逐步将上一层的特征组合起来，形成人脸的模样。随着神经网络层数的增加，特征也从原来的边缘逐步扩展为人脸的整体，由整体到局部，由简单到复杂。层数越多，那么模型学习的效果也就越精确。

对于语音识别，第一层神经网络可以学习到语言发音的一些音调，后面更深层次的网络可以检测到基本的音素，再到单词信息，逐渐加深可以学到短语、句子。

所以从上面的两个例子可以看出随着神经网络的深度加深，模型能学习到更加复杂的问题，功能也更加强大。

电路逻辑计算：

假定计算异或逻辑输出：

$y=x_{1}\oplus x_{2}\oplus x_{3}\oplus \cdots\oplus x_{n}$

对于该运算，若果使用深度神经网络，每层将前一层的相邻的两单元进行异或，最后到一个输出，此时整个网络的层数为一个树形的形状，网络的深度为 $O(log2(n))$ ，共使用的神经元的个数为：

$1+2+\cdot+2^{\log_{2}(n)-1}=1\cdot \dfrac{1-2^{\log_{2}(n)}}{1-2}=2^{\log_{2}(n)}-1=n-1$

即输入个数为 n，输出个数为 n-1。

但是如果不适用深层网络，仅仅使用单隐层的网络（如右图所示），需要的神经元个数为 $2^{n−1}$ 个。同样的问题，但是深层网络要比浅层网络所需要的神经元个数要少得多。

4.6 Building blocks of deep neural networks 搭建深层神经网络块

$w^{[l]}:=w^{[l]}-\alpha \cdot dw^{[l]}\\b^{[l]}:=b^{[l]}-\alpha \cdot db^{[l]}$

4.7 Parameters vs Hyperparameters (参数 VS 超参数)

参数：

参数即是我们在过程中想要模型学习到的信息， $W^{[l]}，b^{[l]}$ 。

超参数：

超参数即为控制参数的输出值的一些网络信息，也就是超参数的改变会导致最终得到的参数 $W^{[l]}，b^{[l]}$ 的改变。

举例：

学习速率： $α$

迭代次数： $N$

隐藏层的层数： $L$

每一层的神经元个数： $n^{[1]}，n^{[2]},⋯$

激活函数 $g(z)$ 的选择

参考文献：

[1]. 大树先生.吴恩达Coursera深度学习课程 DeepLearning.ai 提炼笔记（1-4）– 浅层神经网络

PS: 欢迎扫码关注公众号：「SelfImprovementLab」！专注「深度学习」，「机器学习」，「人工智能」。以及「早起」，「阅读」，「运动」，「英语」「其他」不定期建群打卡互助活动。

确定要放弃本次机会？
福利倒计时
: :

立减 ¥
普通VIP年卡可用
立即使用

ZJ_Improve

关注关注

0
点赞

踩

0

收藏

觉得还不错? 一键收藏

0
评论

复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

神经网络实现分类matlab代码-MachineLearningIntro-AndrewNg-Coursera:MachineLearning

06-16

神经网络实现分类matlab代码自述文件 #Intro to Machine Learning Course of 斯坦福大学 Coursera 的 Andrew Ng 硬件的评分结果在“成绩”文件夹中 ##周 01： ##周 02： ##week 03: Logistical Regression FILES ex2...

Andrew Ng(吴恩达)coursera ML课程编程Matlab答案

11-02

在本资源中，“Andrew Ng(吴恩达)coursera ML课程编程Matlab答案”是一个针对Coursera上吴恩达教授机器学习课程的编程作业解答集，主要使用了Matlab编程语言。吴恩达是人工智能和机器学习领域的知名专家，他的在线...

参与评论您还未登录，请先登录后发表或查看评论

向毕业妥协系列之机器学习笔记:高级学习算法-神经网络（一）

长夜漫漫，无心睡眠

11-09 316

在这门课中，我将向你们介绍神经网络。然后影响一件T-shirt是否成为畅销品的有如下几个因素，一是顾客对于这件T恤的承担能力（即对于顾客来说这件T恤是贵了还是买的起），二是顾客对于这件T恤的认知程度，三是顾客对于这款衣服的质量的认知程度。看到右下角的第一层输出的激活值的计算公式，可以看到是个25行1列的列向量，因为第一个隐藏层有25个神经元，所以w，就得有25个小分量，b也同理。右下角是一个简单的神经元示例，这个神经元由输入（一个或多个数），有一个或多个输出，输出的就是那个f(x)，输出是概率。

深度学习方法——实验3：手动实现多层神经网络

时生的博客

03-22 4352

在计算机上验证和测试多层神经网络的原理和算法实现，测试多层神经网络的训练效果，同时查阅相关资料。掌握多层神经网络的基本原理、掌握多层神经网络的算法过程、反向传播的算法过程；三、实验内容题1：请阅读和测试多层神经网络类代码，观察多层神经网络训练过程和结果，请对隐藏层Dense类和多层神经网络MLPClassifier类的代码进行注释。 1.1 导入所需的函数库 from sklearn import datasets import numpy

深度学习——神经网络中的activation

杜咩咩的博客

05-02 7805

神经网络中有个词叫做 activation——激活函数现假设一神经网络N，其中w为权值参数，x为输入，b为偏置。神经网络中上层的信号 wx+b 在作为下层的输入之前，需要使用激活函数激活。why？从两个角度解释A：如果不用激活函数（其实相当于激活函数是f(x) = x），在这种情况下你每一层输出都是上层输入的线性函数，很容易验证，无论你神经网络有多少层，输出都是输入的线性组合，与没有隐藏层...

Coursera | Andrew Ng (01-week-4-4.1)—深层神经网络

Self Improvement Lab

01-09 475

该系列仅在原课程基础上部分知识点添加个人学习笔记，或相关推导补充等。如有错误，还请批评指教。在学习了 Andrew Ng 课程的基础上，为了更方便的查阅复习，将其整理成文字。因本人一直在学习英语，所以该系列以英文为主，同时也建议读者以英文为主，中文辅助，以便后期进阶时，为学习相关领域的学术论文做铺垫。- ZJ Coursera 课程 |deeplearning.ai |网易云课堂

Coursera | Andrew Ng (01-week2)—神经网络基础

Self Improvement Lab

02-01 577

在吴恩达深度学习视频以及大树先生的博客提炼笔记基础上添加个人理解，原大树先生博客可查看该链接地址大树先生的博客- ZJ Coursera 课程 |deeplearning.ai |网易云课堂 CSDN：http://blog.csdn.net/junjun_zhao/article/details/79226016 第二周 神经网络基础 (Basics of Neural Net...

Coursera | Andrew Ng (01-week-4-4.6)—搭建深层神经网络块

Self Improvement Lab

01-12 410

该系列仅在原课程基础上部分知识点添加个人学习笔记，或相关推导补充等。如有错误，还请批评指教。在学习了 Andrew Ng 课程的基础上，为了更方便的查阅复习，将其整理成文字。因本人一直在学习英语，所以该系列以英文为主，同时也建议读者以英文为主，中文辅助，以便后期进阶时，为学习相关领域的学术论文做铺垫。- ZJ Coursera 课程 |deeplearning.ai |网易云课堂转载请注明作者

Coursera | Andrew Ng (01-week-3-3.2)—神经网络表示

Self Improvement Lab

01-05 524

该系列仅在原课程基础上部分知识点添加个人学习笔记，或相关推导补充等。如有错误，还请批评指教。在学习了 Andrew Ng 课程的基础上，为了更方便的查阅复习，将其整理成文字。因本人一直在学习英语，所以该系列以英文为主，同时也建议读者以英文为主，中文辅助，以便后期进阶时，为学习相关领域的学术论文做铺垫。- ZJ Coursera 课程 |deeplearning.ai |网易云课堂

Coursera | Andrew Ng (01-week-3-3.1)—神经网络概览

Self Improvement Lab

01-05 410

该系列仅在原课程基础上部分知识点添加个人学习笔记，或相关推导补充等。如有错误，还请批评指教。在学习了 Andrew Ng 课程的基础上，为了更方便的查阅复习，将其整理成文字。因本人一直在学习英语，所以该系列以英文为主，同时也建议读者以英文为主，中文辅助，以便后期进阶时，为学习相关领域的学术论文做铺垫。- ZJ Coursera 课程 |deeplearning.ai |网易云课堂

Coursera | Andrew Ng (01-week3)—浅层神经网络

Self Improvement Lab

02-01 427

在吴恩达深度学习视频以及大树先生的博客提炼笔记基础上添加个人理解，原大树先生博客可查看该链接地址大树先生的博客- ZJ Coursera 课程 |deeplearning.ai |网易云课堂 CSDN：http://blog.csdn.net/junjun_zhao/article/details/79228114 3.1 Neural Networks Overview （

Car-detection-PA:第三周在卷积神经网络中的编程作业，Andrew Ng在Coursera上

05-14

-- Deep Learning Specialization by Andrew Ng on Coursera Course Sites Coursera: 网易云课堂: Notice: 请下载yolo.h5文件放到model_data目录下链接: 密码: 8kim 需要pip安装一下和各位老师好, Final Project ...

机器学习课程-AndrewNg：我的第一门机器学习课

03-03

机器学习课程AndrewNg 我的第一门机器学习课 week1：具有一个变量的线性回归；线性代数复习; week2：具有多个变量的线性回归； Matlab教程；第3周：逻辑回归；正规化；第4周：神经网络及其应用；第5周：神经...

Coursera Machine Learning 第四周week4 ex3NeuralNetworks编程全套满分题目+注释

12-06

在本资源中，我们关注的是Coursera上Andrew Ng教授的机器学习课程的第四周练习，特别是关于多类分类和神经网络（Neural Networks）的部分，即ex3NeuralNetworks编程作业。这个作业旨在帮助学生深入理解神经网络模型...

Coursera | Andrew Ng (05-week2)—自然语言处理与词嵌入

Self Improvement Lab

03-06 1497

【第 5 部分-序列模型-第 2 周】在吴恩达深度学习视频基础上，笔记总结，添加个人理解，如有理解描述错误，请多加批评指教。后期参考大树先生 Koala_Tree 的笔记总结进行修改，原文地址可看吴恩达Coursera深度学习课程 DeepLearning.ai 提炼笔记（5-2）– NLP和词嵌入- ZJ Coursera 课程 |deeplearning.ai |网易云课堂 CS...

Deep Learning | Andrew Ng (05-week1)—循环序列模型

Self Improvement Lab

02-27 1132

【第 5 部分-序列模型-第一周】在吴恩达深度学习视频基础上，笔记总结，添加个人理解。后期复习阶段参考大树先生的博客链接看这里大树先生 - ZJ Coursera 课程 |deeplearning.ai |网易云课堂 CSDN：http://blog.csdn.net/JUNJUN_ZHAO/article/details/79362639 循环序列模型（Recurr...

Coursera | Andrew Ng (04-week3)—目标检测

Self Improvement Lab

02-05 1067

在吴恩达深度学习视频以及大树先生的博客提炼笔记基础上添加个人理解，原大树先生博客可查看该链接地址大树先生的博客- ZJ Coursera 课程 |deeplearning.ai |网易云课堂 CSDN：http://blog.csdn.net/junjun_zhao/article/details/79222550 卷积神经网络 — 目标检测 Object detection...

Coursera | Andrew Ng (04-week1)—卷积神经网络

Self Improvement Lab

01-29 854

在吴恩达深度学习视频以及大树先生的博客提炼笔记基础上添加个人理解，原大树先生博客可查看该链接地址大树先生的博客- ZJ Coursera 课程 |deeplearning.ai |网易云课堂 CSDN：http://blog.csdn.net/junjun_zhao/article/details/79190634 Convolutional Neural Networks ...

coursera-ml-andrewng-notes-master.zip

最新发布

06-27

Coursera-ml-andrewng-notes-master.zip是一个包含Andrew Ng的机器学习课程笔记和代码的压缩包。这门课程是由斯坦福大学提供的计算机科学和人工智能实验室（CSAIL）的教授Andrew Ng教授开设的，旨在通过深入浅出的...