Datawhale 7月学习——李弘毅深度学习：深度学习介绍和反向传播机制

最新推荐文章于 2022-08-16 22:31:29 发布

SheltonXiao

最新推荐文章于 2022-08-16 22:31:29 发布

阅读量236

点赞数

分类专栏：学习

本文链接：https://blog.csdn.net/qq_40990057/article/details/118873940

版权

学习专栏收录该内容

58 篇文章 14 订阅

订阅专栏

前情回顾

1 深度学习简介

1.1 深度学习的历史

李宏毅老师带我们简要回顾了深度学习的历史。

1958: Perceptron (linear model)
1969: Perceptron has limitation
1980s: Multi-layer perceptron
- Do not have significant difference from DNN today
1986: Backpropagation
- Usually more than 3 hidden layers is not helpful
1989: 1 hidden layer is “good enough”, why deep?
2006: RBM initialization (breakthrough)
2009: GPU
2011: Start to be popular in speech recognition
2012: win ILSVRC image competition

感知机（Perceptron）非常像我们的逻辑回归（Logistics Regression）只不过是没有sigmoid激活函数。09年的GPU的发展是很关键的，使用GPU矩阵运算节省了很多的时间。

从2012年至今，可以称作是深度学习发展的爆发期，许多新的模型及方法被提出及实现。许多深度学习相关竞赛在这些年举办，也催生了很多优秀的模型。深度学习的网络结构，训练方法，GPU硬件的不断进步，促使其在许多应用领域不断的征服战场。（深度学习(deep learning)发展史）

1.2 深度学习的实现

1.2.1 深度学习的三个步骤

对应前面回归问题提到，回归模型的步骤主要分为三步

step1：模型假设，选择模型框架（模型种类）
step2：模型评估，如何判断众多模型的好坏（损失函数）
step3：模型优化，如何筛选最优的模型（优化求解）

深度学习的步骤也是分为上述三步，具体到深度学习上是指：

Step1：神经网络（Neural network）
Step2：模型评估（Goodness of function）
Step3：选择最优函数（Pick best function）

在这里插入图片描述

1.2.2 神经网络

神经网络（Neural network）提出的最初，是把每一个节点，比喻为神经元（Neuron）。

每个Neuron里头发生的计算如下：
在这里插入图片描述
其中 $x_1$ ， $x_2$ ， $x_3$ 意为输入， $z$ 将输入进行了线性变换； $\sigma(z)$ 为激活函数，一般为非线性函数（这样可以保证层数间的差别，保证hidden layer的正常运作）。

常见的激活函数为 $s i g m o i d$ 函数
在这里插入图片描述
此外还有 $t a n h$ 函数

$R e L U$ 函数

$L e a k y R e L U$ 函数

选择激活函数的经验法则
如果输出是0、1值（二分类问题），则输出层选择sigmoid函数，然后其它的所有单元都选择Relu函数。
这是很多激活函数的默认选择，如果在隐藏层上不确定使用哪个激活函数，那么通常会使用Relu激活函数。有时，也会使用tanh激活函数，但Relu的一个优点是：当z是负值的时候，导数等于0，这样会使得学习速度快很多。
sigmoid激活函数：除了在输出层且是一个二分类问题基本不会用它。tanh激活函数：tanh是非常优秀的，几乎适合所有场合。
ReLu激活函数：最常用的默认函数，如果不确定用哪个激活函数，就使用ReLu或者Leaky ReLu。

Neuron以很多不同的连接方式连接起来，这样就会产生不同的结构（structure）。
在这里插入图片描述

在这个神经网络里面，我们有很多逻辑回归函数（ $z=wx^T+b$ ），其中每个逻辑回归都有自己的权重（ $w$ ）和自己的偏差（ $b$ ），这些权重和偏差就是参数。
而神经元的连接方式可以通过手动设计实现。

最常见的一种神经网络结构是完全连接前馈神经网络。
所谓完全连接，就是指相邻两层的任意两个神经元间都存在连接关系。

前馈（feedforward）也可以称为前向，从信号流向来理解就是输入信号进入网络后，信号流动是单向的，即信号从前一层流向后一层，一直到输出层，其中任意两层之间的连接并没有反馈（feedback），亦即信号没有从后一层又返回到前一层。

前馈这一概念是重要的，因为在之后的一些网络结构中，会出现信号反馈的情形。

一个典型的前馈神经网络

对于完全链接前馈神经网络，其计算过程，即为逐层计算当前输入在每一个神经元的输出，直到求出 $\hat y$ 。而每一个神经元的输出，都需要进行 $z$ 及 $\sigma (z)$ 两步求解。

在这里插入图片描述
神经网络到底可以有多深？

2015年发布的Residual Net，有152层。

但无论神经网络有多深，整个神经网络可以看作是通过隐藏层来进行特征转换。

把隐藏层通过特征提取来替代原来的特征工程，这样在最后一个隐藏层输出的就是一组新的特征（相当于黑箱操作）而对于输出层，其实是把前面的隐藏层的输出当做输入（经过特征提取得到的一组最好的特征）然后通过一个多分类器（可以是softmax函数）得到最后的输出y。

在这里插入图片描述

1.2.3 模型评估

对于模型的评估，我们一般采用损失函数来反应模型的好坏，所以对于神经网络来说，我们采用交叉熵（cross entropy）函数来对 $y$ 和 $\hat{y}$ 的损失进行计算，接下来我们就是调整参数，让交叉熵越小越好。
$C=-\frac{1}{n}\displaystyle\sum_x[y\ln(\hat y)+(1-y)\ln(1-\hat y)]$

对于单个数据的损失如下图：
在这里插入图片描述
对于损失，我们不单单要计算一个案例的，要计算整体所有训练数据的损失，然后把所有的训练数据的损失都加起来，得到一个总体损失L。

1.2.4 选择最优函数

接下来就是在function set里面找到一组函数能最小化这个总体损失L，或者是找一组神经网络的参数 $\theta$ ，来最小化总体损失L。

所用的选择最优函数的方法是梯度下降法。
在这里插入图片描述

1.3 神经网络的实现

1.3.1 矩阵计算

前面提到，神经网络的层数可以很深。随着层数变多，运算量增大，通常会达到超过亿万级的计算。
对于亿万级的计算，使用loop循环效率很低，需要引入矩阵计算（Matrix Operation）能使得来提高运算的速度以及效率。
在这里插入图片描述

for循环计算效率很低，我们应当借助向量化的并行计算来简化这个代码过程，使得计算速度加快，从而减少调试周期。

所谓向量化，就是尽可能的将同类型的单个变量进行方向上的堆叠，再利用线性代数的相关知识进行批量计算。

充分利用python的numpy库具有的向量化计算功能，则单神经元的向量化计算如下（包括梯度下降法）

Z = np.dot(w.T,X) + b 
A = sigmoid(Z) 
dZ = A - Y 
dw = 1/m * X * dZ.T 
db = 1/m * np.sum(dZ) 
w = w - alpha*dw 
b = b - alpha*db

多层神经网络的维度通式：
在这里插入图片描述

1.3.2 示例：手写数字识别

举一个手写数字体识别的例子：
输入：一个16*16=256维的向量，每个pixel对应一个dimension，有颜色用（ink）用1表示，没有颜色（no ink）用0表示
输出：10个维度，每个维度代表一个数字的置信度。

在这里插入图片描述
在这个问题中，唯一需要的就是一个函数，输入是256维的向量，输出是10维的向量，我们所需要求的函数就是神经网络这个函数。

接下来有几个问题：

多少层？每层有多少神经元？
这个问我们需要用尝试加上直觉的方法来进行调试。对于有些机器学习相关的问题，我们一般用特征工程来提取特征，但是对于深度学习，我们只需要设计神经网络模型来进行就可以了。对于语音识别和影像识别，深度学习是个好的方法，因为特征工程提取特征并不容易。
结构可以自动确定吗？
有很多设计方法可以让机器自动找到神经网络的结构的，比如进化人工神经网络（Evolutionary Artificial Neural Networks）但是这些方法并不是很普及。
我们可以设计网络结构吗？
可以的，比如 CNN卷积神经网络（Convolutional Neural Network ）

参考阅读

SheltonXiao

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
2
评论
Datawhale 7月学习——李弘毅深度学习：深度学习介绍和反向传播机制

前情回顾机器学习简介回归误差与梯度下降1 深度学习简介1.1 深度学习的历史李宏毅老师带我们简要回顾了深度学习的历史。1958: Perceptron (linear model)1969: Perceptron has limitation1980s: Multi-layer perceptron- Do not have significant difference from DNN today1986: Backpropagation- Usually more tha
复制链接

扫一扫