深度学习与神经网络

最新推荐文章于 2024-07-27 09:07:21 发布

@从心

最新推荐文章于 2024-07-27 09:07:21 发布

阅读量1.8k

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/qq_45786520/article/details/118575028

版权

深度学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

以神经网络为核心的深度学习是机器学习的一个领域分支。

深度学习看起来就像是一个黑箱机制，输入各种非结构化的数据之后输出来的预测结果。例如，输入一段语音，输出“Hello World”这样的文本；输入一张猫的图像，输出为“猫”这样的标签；输入一副棋局，输出下一步走棋方式；输入中文的“你好”，输出“Hi”这样的英文等。很难对输入与输出之间的模型转换过程给出一个合理的解释。在实际中，调用TensorFlow这样的深度学习框架，快速搭建起深度学习项目。

感知机

感知机，就是一个指在建立一个线性超平面对线性可分的数据集进行分类的线性模型，如下图从左到右的单层感知机模型的计算执行方向，模型接收 $I_1、I_2、\dots、I_n$ n个输入，将输入与权值参数 $w_1、w_2、\dots、w_n$ 进行加权求和并经过sigmoid函数（或其他非线性函数）进行激活，将激活结果y作为输出，这便是单层感知机执行向前计算的基本过程。

在执行完向前计算得到的输出之后，模型需要根据当前的输出和实际的输出时间按照损失函数计算当前损失，计算损失函数关于权值的偏置的梯度，然后根据梯度下降法更新权值和偏置，经过不断的迭代调整权值和偏置是损失最小，这便是完整的单层感知机的训练过程。

单层感知机包含两层神经元，即输入和输出神经元，可以非常容易地实现逻辑与、逻辑或和逻辑非等线性可分情形，但是单层感知机的学习能力非常有限，对于像异或问题这样的线性不可分情形（即对于输入训练数据，不存在一个线性超平面能够将其进行线性分类），单层感知机就搞不定了（如下图）。
在这里插入图片描述

对于线性不可分的情况，在感知机基础上一般有两种解决方式，一个是支持向量机，指在通过核函数映射来处理非线性的情况；另一种就是神经网络模型，也就是多层感知机(MLP)。与单层感知机在结构上的区别主要在于MLP多了若干个隐藏层，这使得神经网络模型可以处理非线性问题。

在这里插入图片描述

什么是隐藏层，就是在神经网络的训练过程中只能观察到输入层和输出层的数据，对于中间隐藏层的数据变化石看不见的，因此在深度神经网络（DNN）中，将中间看不见又难以对其效果进行合理解释的隐藏层为“黑箱子”。与感知机一样，神经网络的训练依然包含前向计算和反向传播两个主要过程。单层感知机是没有反向传播这个概念，而是直接建立损失函数对权值和偏置参数进行梯度优化；简单而言，前向计算就是权值偏置与输入的线性加权和激活操作，在隐藏层上有个嵌套的过程。

反向传播算法公式推导

反向传播算法，也称误差逆传播算法。作为神经网络的训练算法，反向传播算法可谓是当前最成功的神经网络学习算法，通常所说的是BP神经网络就是之应用反向传播算法进行训练的网络模型。

假设输入层为 $x$ ，输入层与隐藏层之间的权重和偏置分别为 $w_1$ 和 $b_1$ ，线性加权计算结果为 $Z_1 = w_1x+b_1$ ，采用sigmoid激活函数，激活输出为 $a_1 = σ(Z_1)$ 。隐藏层到输出层的全职和偏置分别为 $w_2$ 和 $b_2$ ，线性加权计算结果为 $Z_2 = w_2x+b_2$ ，激活输出为 $a_2 = σ(Z_2)$ 。所以，这个两层的前向计算过程为 $x →Z_1 →a_1 →Z_2 →a_2$ 。可以看出，反向传播的直观理解就是将前向计算过程反过来，但必须是梯度计算的方向反过来，假设采用式1的交叉熵损失函数
$(1-y)log(1-a))\tag{1}$
反向传播是基于梯度下降策略的，主要是以目标参数的负梯度方向对参数进行更新，将前向计算过程反过来，那么基于损失函数的梯度计算顺序就是 $da_2→dZ_2 →dw_2 →db_2 →da_1→dZ_1→dw_1→db_1$ 。

下面从输出 $a_2$ 开始进行反向推导，输出层激活输出为 $a_2$ ，那么首先计算损失函数 $L (y, a)$ 关于 $a_2$ 的微分 $da_2$ ，影响输出

$\frac{\partial a_2}{\partial L} = \frac{\mathrm{d}L(a_2,y)}{\mathrm{d}a_2}=(-yloga_2-(1-y)log(1-a_2))' = -\frac{y}{a_2}+\frac{1-y}{1-a_2}\tag{2}$

$\frac{\partial L}{\partial Z_2} = \frac{\partial L}{\partial a_2}\frac{\partial a_2}{\partial Z_2} =(-\frac{y}{a_2}+\frac{1-y}{1-a_2})×a_2×(1-a_2)= a_2-y\tag{3}$

$m个样本的梯度下降：\\ \frac{\partial L}{\partial w_2} = \frac{\partial L}{\partial a_2}\frac{\partial a_2}{\partial Z_2}\frac{\partial Z_2}{\partial w_2} = \frac{1}{m}(a_2-y)a_1\tag{4}$

$\frac{\partial L}{\partial b_2}=\frac{\partial L}{\partial a_2}\frac{\partial a_2}{\partial Z_2}\frac{\partial Z_2}{\partial b_2} = \frac{\partial L}{\partial Z_2}=a_2-y\tag{5}$

$\frac{\partial L}{\partial a_1} = \frac{\partial L}{\partial a_2}\frac{\partial a_2}{\partial Z_2}\frac{\partial Z_2}{\partial a_1} = (a_2-y)w_2\tag{6}$

$\frac{\partial L}{\partial Z_1}=\frac{\partial L}{\partial a_2}\frac{\partial a_2}{\partial Z_2}\frac{\partial Z_2}{\partial a_1}\frac{\partial a_1}{\partial Z_1}=(a_2-y)w_2σ'(Z_1)\tag{7}$

$\frac{\partial L}{\partial w_1} = \frac{\partial L}{\partial a_2}\frac{\partial a_2}{\partial Z_2}\frac{\partial Z_2}{\partial a_1}\frac{\partial a_1}{\partial Z_1}\frac{\partial Z_1}{\partial w_1}=(a_2-y)w_2σ'(Z_1)x\tag{8}$

$\frac{\partial L}{\partial b_1} = \frac{\partial L}{\partial a_2}\frac{\partial a_2}{\partial Z_2}\frac{\partial Z_2}{\partial a_1}\frac{\partial a_1}{\partial Z_1}\frac{\partial Z_1}{\partial b_1}=(a_2-y)w_2σ'(Z_1)x\tag{9}$