李宏毅深度学习--《深度学习的简单介绍》+《为什么要做“深度”学习》

最新推荐文章于 2024-04-05 19:52:27 发布

白色的生活

最新推荐文章于 2024-04-05 19:52:27 发布

阅读量287

点赞数

分类专栏：李宏毅DeepLearning 文章标签：深度学习学习机器学习

本文链接：https://blog.csdn.net/GuoShao_/article/details/126567069

版权

李宏毅DeepLearning 专栏收录该内容

10 篇文章 2 订阅

订阅专栏

李宏毅深度学习

一、深度学习的简单介绍
二、为什么要做“深度”学习？
三、总结

一、深度学习的简单介绍

Deep Learning的三个步骤:

$-Step1-：define\ a\ set\ of\ function$ （给出一个 $network\ structure$ 就相当于定义了一个函数集合）
$Step2-：goodness\ of\ function$
$Step3-：pick\ the\ best\ function$

全连接层前馈网络 $(Fully\ Connect \ Feedforward\ Network)$ ：

接收输入数据的第 $0$ 层称为输入层，中间由很多neuron组成的层称为隐藏层，输出结果的第 $L$ 层称为输出层。

在这里插入图片描述

矩阵运算 $(M a t r i x Op er a t i o n)$ ：

在神经网络中一般采用矩阵运算，不仅方便表示，还能加速运算。第 $1$ 层输出的矩阵运算如下图所示：
(假设激活函数 $σ$ 使用的是 $s i g m o i d$ )
在这里插入图片描述

将各层的参数都进行向量化，神经网络的前向传播做的其实就是很多的矩阵运算，如下图：

在这里插入图片描述

$W^1、b^1$ 表示第 $0$ 层(输入层)和第 $1$ 层之间的权重和偏置的向量化表示。

第 $1$ 层的的输出 $a^1$ 的表达式为：
$a^1=σ(W^1\cdot x+b^1)$

同理第 $2$ 层 $a^2$ 的输出为：
$a^2=σ(W^2\cdot a^1+b^2)=σ(W^2\cdot σ(W^1\cdot x+b^1)+b^2)$

依此类推，第L层的输出为：
$a^L=σ(W^L\cdots σ(W^2\cdot σ(W^1\cdot x+b^1)+b^2)+b^L)$

在做这些矩阵运算的时候，就可以通过GPU来进行计算，加速运算过程。

将输出层作为多元分类器：

此时的输入的 $X$ 是待分类对象的 $f e a t u res$ ；中间隐藏层做的工作是接收前一层的特征输入并提取/转换特征作为下一层的输入；最后一层接收的结果是通过提炼的、抽象的 $f e a t u res$ ，通过一个简单的 $so f t ma x$ 输出分类结果。

在这里插入图片描述

以手写数字识别为例子，如下图：
在这里插入图片描述

将 $16\times16$ 的图片平铺展开成256维度的向量作为神经网络输入的 $f e a t u res$ ，最后输出层经过 $so f t ma x$ 函数输出 $10$ 个概率值作为输出，选中其中概率最大的作为分类结果。

goodness of function：

确定 $network\ structure$ 后，如何定义一个好的 $f u n c t i o n$ 呢？

在分类问题中一般常用交叉熵作为损失函数，交叉熵是比较两个不同分布模型(理想模型和现实模型)之间距离的度量。

如下图，神经网络通过前向传播输出预测结果 $y$ ，使用交叉熵来判断预测结果 $y$ 和实际结果 $\hat{y}$ 之间还有多少“距离”。

在这里插入图片描述

交叉熵表达式为：
$l(y,\hat{y})=-\sum\limits_{i=1}^{10} {\hat{y}_i\cdot log\ y_i}$

然后对每个训练样本的Loss求和，计算整体的损失 $L oss$ ：

在这里插入图片描述

整体损失函数值 $L$ 表达式为：
$\ Loss=L=\sum\limits_{n=1}^{N} {l^n}$

后面的事情就是使用 $gradient\ descend$ 来找到使 $L$ 最小化的参数。

二、为什么要做“深度”学习？

参数一样的情况下，让模型更“高”比更“宽”更有用

如下面两个图，左边的模型结构宽而短，右边的模型窄而高。为什么参数相同的情况下右边的模型会更好一些呢？

在这里插入图片描述

这就像平时在写的程序，我们不会将所有功能实现都放在 $main\ function$ 中。我们会更愿意将功能模块化( $m o d u l a r i z a t i o n$ )，如下图：

在这里插入图片描述
结构化的编程的好处是很多函数都可以重复使用，深层的功能实现也能很好的调用浅层的功能。

将 $m o d u l a r i z a t i o n$ 的概念带入到神经网络实例中去，假设我们要对图片进行分类，分出长头发女生、长头发男生、短头发男生、短头发女生4各类别。数据集情况如下图所示：
在这里插入图片描述

当使用窄而宽的神经网络直接去训练这个分类器时，长头发男生训练样本太少，那么分类器对长头发男生的分类效果就会很差。
在这里插入图片描述

我们使用 $m o d u l a r i z a t i o n$ 将这个问题分成两个 $Basic\ Classifier$ ：是男孩还是女孩、长头发还是短头发。
在这里插入图片描述
这样这两个子分类问题训练样本都比较充足；再将这两个问题的结果用于训练分类器分类，这样长头发男生虽然数据较少，但是也能获得比较好的分类结果。

在这里插入图片描述

综上所述，当我们使用窄而高的模型进行分类时，就类似是将问题分解成了几个小问题，再用子问题的有用信息去解决更复杂的信息。

如下图所示，第一层可以看成 $The\ \ most\ \ basic\ \ classifiers$ (最基本的分类子问题)，第二层就会使用第一层的子问题的分类结果去解决更复杂的 $basic\ classifiers$ 问题。

在这里插入图片描述

所以在做Deep learning解决问题时，就是将问题模块化的过程，而如何模块化是机器自动从数据中学习到的。

Universality Theorem：
存在一个理论：
当隐藏层的的神经节点足够的多，任何连续函数( $continuous\ function$ ) $f$ :
$f:R^N →R^M$

都能被只有一个隐藏层的1神经网络学习到。

是的，短而宽的神经网络能够表示任何的函数；但是，使用窄而宽的深层结构会更有效率。

就像逻辑电路( $logical\ circuit$ )，逻辑电路由一个一个的门( $g a t e$ )组成。两层的 $g a t e$ 就能够代表任何的布尔函数( $Boolean\ function$ )；但是使用更多层的逻辑门去建立这些布尔函数会更简单、更加有效率。

具体例子，若想要构建一个奇偶校验的逻辑电路，如下图：
在这里插入图片描述
仅使用两层逻辑电路对 $d$ 个序列数进行奇偶校验，需要 $O(2^d)$ 数量级的 $g a t e$ ；而使用深层的逻辑电路来表示，仅需要 $O (d)$ 数量级的 $g a t e$ 就能表示。如下图，三个 $g a t e$ 就能进行奇偶校验：

所以当我们使用 $Deep\ \ learning$ 时，相比一层隐藏层的神经网络可以使用相对更少的神经节点，从而使用更少的参数，一方面避免了过拟合，另一方面可以使用更少的数据去训练模型。

端到端学习 $(End-to-end\ Learning)$ ：

当我们使用 $Deep\ Learning$ 后，我们就可以使用端到端的学习；使用一个深层神经网络来省略复杂繁琐的人工操作。

什么是 $End-to-end\ Learning$ 看这个链接

Deep Learning 能够解决复杂的任务：

$Complex\ Task1$ ：相似的输入，不同的输出；
$Complex\ Task2$ ：不同的输入，相似的输出；

举一个语音识别的例子，收集了多个不同人说同一句话的语音，并降维到二维上进行可视化。如下图，相同颜色的代表同一个人说的语音，可以看同一句话被不同的人说都会有很大的差异。
在这里插入图片描述
将上述式子输入到训练好的 $Deep\ Learning$ 模型中，输出第 $8$ 层的输出：

神奇的事情发生了，不同人的同一句话的语音变得十分的相似。

三、总结

$Deep\ Learning$ 自动的对问题进行模块化；
参数一样的情况下，让模型更“高”比更“宽”更有用；
使用“深度”学习会更有效率；
$Deep\ Learning$ 能够解决复杂的任务。

白色的生活

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
李宏毅深度学习--《深度学习的简单介绍》+《为什么要做“深度”学习》

Deep Learning的三个步骤−Step1−：defineasetoffunction−Step1−：defineasetoffunction（给出一个networkstructurenetworkstructure就相当于定义了一个函数集合）−Step2−：goodnessof。
复制链接

扫一扫