DNN-深度神经网络

最新推荐文章于 2024-07-25 13:37:16 发布

LeafyJee_

最新推荐文章于 2024-07-25 13:37:16 发布

阅读量3.2k

点赞数 23

分类专栏：神经网络文章标签： dnn 人工智能神经网络

本文链接：https://blog.csdn.net/2301_78731684/article/details/134896759

版权

神经网络专栏收录该内容

9 篇文章 0 订阅

订阅专栏

本文概述了深度神经网络的发展历程，从早期的感知器到反向传播算法的兴起，介绍了DNN的基本结构，包括输入层、隐藏层和输出层，以及反向传播算法在参数优化和解决非线性问题上的关键作用。还讨论了常用的损失函数和激活函数，以及面临的挑战和未来发展趋势。

摘要由CSDN通过智能技术生成

一，历史背景

深度神经网络（DNN）的历史可以追溯到1943年，当时美国神经生理学家沃伦·麦卡洛克（Warren McCulloch）和数学家沃尔特·皮茨（Walter Pitts）对生物神经元进行建模，首次提出了一种形式神经元模型，这个神经元模型通过电阻等元件构建的物理网络得以实现，被称为M-P模型。1958年，罗森布拉特（Roseblatt）又提出来了感知器，这意味着经过训练后，计算机能够确定神经元的连接权重。

然而，在1969年，明斯基（Minsky）等人指出感知器无法解决线性不可分问题，使得神经网络的研究陷入了第一次低谷。尽管ANN的研究陷入了前所未有的低谷，但仍有为数不多的学者忍受住寂寞，坚持致力于ANN的研究。在长达10年的低潮时期之间，相继有一些开创性的研究成果被提出来，但还不足以激起人们对于ANN研究的热情。

直到1986年，Rumelhart和Hinton等人提出了反向传播算法，才使得神经网络的研究重新获得了生机。反向传播算法通过不断地调整神经网络的参数，以最小化预测误差和损失函数，从而提高了神经网络的性能和准确性。此后，深度神经网络逐渐发展并成熟起来，被广泛应用于图像分类、语音识别、自然语言处理等各个领域。

二，简介

深度神经网络（DNN）是一种多层神经网络，通过将多个神经元连接在一起，形成一种深度结构。DNN可以用于处理各种类型的数据，包括图像、文本、语音等。在深度神经网络中，隐含层的数量和每层的神经元数量可以视具体任务和数据类型而定。DNN的训练过程通常采用反向传播算法和梯度下降优化方法，通过不断地调整神经网络的参数，以最小化预测误差和损失函数。

深度神经网络具有多个非线性映射的特征变换，可以对高度复杂的函数进行拟合。相比浅层建模方式，深层建模能更细致高效的表示实际的复杂非线性问题。深度神经网络在许多领域都取得了显著的成果，例如图像分类、语音识别、自然语言处理等。然而，深度神经网络也面临着一些挑战，如过拟合、梯度消失和计算资源等问题。

三，引言

深度神经网络（DNN）是一种人工神经网络的形式，它包含多个神经网络层，通常包括输入层、多个隐藏层和输出层。每一层都由神经元组成，这些神经元通过权重连接在一起。深度学习是机器学习领域中的一个重要分支，而深度前馈网络（DNN）是深度学习的基础模型之一。

四，深入了解

1. 从感知机到神经网络

感知机和神经网络都是人工智能领域的重要模型，它们在处理数据和解决问题方面有着不同的特点和优势。

感知机是由感知模型而来的，其最基本、最核心的概念是单一输出神经元。感知机将所有输入信号线性地组合起来，当组合的总和超过某个阈值时，就输出1，否则输出0。感知机的缺点在于设定权重的工作需要由人工进行，而且对于复杂的函数，感知机可能无法很好地表示。

神经网络是一种更复杂的模型，可以处理线性不可分数据集。有理论证明，只需一个隐层且该隐层包含多个神经元的神经网络，就能以任意精度逼近任意复杂度的连续函数。神经网络的出现是为了解决感知机的缺点，它可以自动地从数据中学习到合适的权重参数。

神经网络的结构包括输入层、隐藏层和输出层。输入层负责接收原始数据，隐藏层包含多个神经元，负责处理数据并提取特征，输出层负责将处理结果转化为可读的输出。隐藏层的数量和每层的神经元数量可以根据具体任务和数据类型来决定。

在训练神经网络时，通常采用反向传播算法和梯度下降优化方法，通过不断地调整神经网络的参数，以最小化预测误差和损失函数。反向传播算法通过计算输出层和期望输出之间的误差，并将误差反向传播到前面的隐藏层，以此不断调整权重和偏置参数，使得神经网络的输出结果越来越接近期望输出。

总的来说，感知机和神经网络都是重要的机器学习模型，具有各自的特点和优势。感知机简单易懂，可以用于解决一些简单的分类问题；而神经网络则更为复杂，可以处理更复杂的数据和问题。在实际应用中，可以根据具体的问题和数据选择合适的模型。

感知机的模型，它是一个有若干输入和一个输出的模型，如下图:

输出和输入之间学习到一个线性关系，得到中间输出结果：

接着是一个神经元激活函数：

从而得到想要的结果1或者-1.

这个模型只能用于二元分类，且无法学习比较复杂的非线性模型，因此在工业界无法使用。而神经网络则在感知机的模型上做了扩展，总结下主要有三点：

（1）加入了隐藏层，隐藏层可以有多层，增强模型的表达能力，如下图实例，当然增加了这么多隐藏层模型的复杂度也增加了好多。

2）输出层的神经元也可以不止一个输出，可以有多个输出，这样模型可以灵活的应用于分类回归，以及其他的机器学习领域比如降维和聚类等。多个神经元输出的输出层对应的一个实例如下图，输出层现在有4个神经元了。

3）对激活函数做扩展，感知机的激活函数是 $sign(z)$ ,虽然简单但是处理能力有限，因此神经网络中一般使用的其他的激活函数，比如我们在逻辑回归里面使用过的Sigmoid函数，即：

$f(z)=\frac{1}{1+e^{-z}}$

还有后来出现的tanx, softmax,和ReLU等。通过使用不同的激活函数，神经网络的表达能力进一步增强。

2. DNN的基本结构

输入层：负责接收原始数据，将数据转化为神经网络可以处理的格式。
隐藏层：这是DNN的核心部分，可以包含多个神经元。隐藏层的数量和每层的神经元数量可以根据具体任务和数据类型来决定。层与层之间是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。
输出层：负责将神经网络的处理结果转化为可读的输出。

在DNN中，从输入层到隐藏层再到输出层，每层都包含多个神经元。每个神经元都接收来自上一层的信息，并将信息传递到下一层。在隐藏层中，每个神经元都通过与下一层神经元的连接传递信息，这一过程也涉及权重和偏置的调整。

DNN的学习过程通常采用反向传播算法和梯度下降优化方法。反向传播算法通过计算输出层和期望输出之间的误差，并将误差反向传播到前面的隐藏层，以此不断调整权重和偏置参数，使得神经网络的输出结果越来越接近期望输出。

总的来说，DNN的基本结构是一种多层神经网络，通过多个隐藏层的处理来提取和转化数据特征，最终得到输出结果。这种结构可以处理复杂的非线性问题，并具有强大的表达能力和灵活性。

2.1 输入层

DNN的输入层负责接收原始数据，并将数据转化为神经网络可以处理的格式。对于不同的数据类型和任务，输入层的结构可能会有所不同。

在图像分类任务中，输入层通常是一个二维矩阵，其中每个像素对应一个神经元。对于语音识别任务，输入层可能是一个一维向量，其中每个元素代表语音信号的一个特征。在自然语言处理任务中，输入层可能是一个词向量或句向量，其中每个元素代表一个单词或句子的语义信息。

在输入层中，每个神经元都接收来自数据源的信息，并将其传递到隐藏层。这些信息可以是像素值、频率值、时间步长等等，具体取决于数据类型和任务。在输入层中，每个神经元都通过与下一层神经元的连接传递信息，这一过程也涉及权重和偏置的调整。

总的来说，DNN的输入层是神经网络的第一层，它负责接收原始数据并对其进行初步的处理，以便后续的隐藏层能够更好地提取特征和进行处理。

2.2 隐藏层

DNN的隐藏层是深度神经网络中的核心部分，可以包含多个神经元。隐藏层的数量和每层的神经元数量可以根据具体任务和数据类型来决定。隐藏层的主要作用是将输入转化为输出层可以使用的特征表示，从而更好地进行分类、回归等任务。

在隐藏层中，每个神经元都接收来自上一层的信息，并将信息传递到下一层。这个过程是通过权重和偏置的调整来实现的。每个神经元都应用一个激活函数，将输入信息转化为输出信息。常见的激活函数包括sigmoid函数、ReLU函数等。

隐藏层的一个重要特点是，它们可以学习数据的层次化表示。在多层神经网络中，每一层都可以学习到数据的不同特征表示，从而更好地捕捉到数据的本质。具体来说，第一层可能学习到一些基本的特征，如边缘、角点等，而更高层则可以学习到更加抽象的概念，如物体的形状、姿态等。

隐藏层的另一个重要特点是，它们可以非线性地映射输入数据。通过多个非线性映射的组合，神经网络可以更好地拟合复杂的函数关系。这种能力使得神经网络可以处理各种复杂的分类和回归问题。

总的来说，DNN的隐藏层是深度神经网络中的核心部分，具有学习数据的层次化表示和非线性映射的能力。通过多个隐藏层的组合和处理，神经网络可以更好地提取和转化数据特征，最终得到输出结果。

2.3 输出层

DNN的输出层是深度神经网络中的最后一层，负责将隐藏层提取的特征转化为具体的输出。输出层的结构取决于具体的任务和数据类型。

在分类任务中，输出层通常是一个softmax层，它将隐藏层输出的特征映射到不同类别的概率分布上。softmax函数可以将隐藏层输出的实数值转化为0~1之间的概率值，并且保证所有类别的概率之和为1。通过选择概率最大的类别作为输出，可以得到最终的分类结果。

在回归任务中，输出层通常是一个线性层，它将隐藏层输出的特征映射到一个连续的实数空间上。线性层输出的实数值可以直接作为回归结果。

除了softmax层和线性层之外，输出层还可以使用其他类型的函数或结构，如sigmoid函数、多分类器等等，具体取决于任务和数据类型。

需要注意的是，在训练过程中，输出层的权重和偏置也需要不断调整，以使得神经网络的输出结果更加准确。这通常是通过反向传播算法和梯度下降优化方法来实现的。

总的来说，DNN的输出层是将隐藏层提取的特征转化为具体输出的关键部分，其结构取决于具体的任务和数据类型。通过选择合适的输出层结构和优化方法，可以提高神经网络的性能和准确性。

3. DNN反向传播算法要解决的问题

DNN反向传播算法要解决的问题是在监督学习中，如何通过使用深度神经网络（DNN）来训练模型，使得其能够对新的测试样本进行正确的预测。

具体来说，DNN反向传播算法需要解决以下问题：

参数优化：DNN的参数（权重和偏置）需要被优化以最小化预测误差和损失函数。反向传播算法通过计算损失函数对每个参数的梯度，并使用梯度下降等优化方法来更新参数，从而逐渐降低预测误差。
非线性映射：DNN的一个重要特点是它可以通过多个非线性映射来处理复杂的函数关系。反向传播算法可以使得神经网络在训练过程中逐渐学习到数据的层次化表示，从而更好地捕捉到数据的本质。
过拟合与欠拟合：在训练DNN时，可能会出现过拟合或欠拟合的问题。反向传播算法可以通过正则化、dropout等技术来减轻过拟合，同时通过增加网络深度、增加神经元数量等方式来提高模型的表达能力，从而避免欠拟合。
梯度消失与梯度爆炸：在训练深度神经网络时，可能会出现梯度消失或梯度爆炸的问题。反向传播算法可以通过使用激活函数、批量标准化等技术来缓解梯度消失和梯度爆炸的问题。

总的来说，DNN反向传播算法要解决的问题是如何通过优化神经网络的参数、处理非线性映射、减轻过拟合和解决梯度消失等问题，从而使得深度神经网络能够更好地适应各种复杂的任务和数据类型。

4. DNN反向传播算法的基本思路

DNN反向传播算法的基本思路是使用梯度下降法来迭代优化神经网络的参数，以最小化预测误差和损失函数。具体来说，该算法通过计算损失函数对神经网络每个参数的梯度，并根据梯度下降法来更新参数，从而逐渐降低预测误差。这个过程从输出层开始，反向逐层传递到输入层，直到所有参数都被更新。

需要注意的是，在计算梯度时，需要使用链式法则来逐层计算每个神经元的梯度，并将梯度传递到前一层，直到传递到输入层。这个过程称为反向传播。通过反向传播，可以使得神经网络在训练过程中逐渐学习到数据的层次化表示，从而更好地捕捉到数据的本质。

总的来说，DNN反向传播算法的基本思路是通过计算损失函数对每个参数的梯度，并使用梯度下降法来更新参数，从而逐渐优化神经网络的预测性能。同时，通过使用反向传播算法，可以使得神经网络在训练过程中逐渐学习到数据的层次化表示，从而更好地适应各种复杂的任务和数据类型。

5. DNN反向传播算法过程

DNN反向传播算法的过程可以分为以下几个步骤：

前向传播：首先，将训练数据输入到神经网络中，进行前向传播，得到神经网络的输出。
计算损失：根据神经网络的输出和真实标签，计算损失函数的值。常见的损失函数包括均方误差损失函数、交叉熵损失函数等。
反向传播：从输出层开始，计算损失函数对每个神经元的梯度，并将梯度反向传播到前一层，直到传递到输入层。这个过程需要使用链式法则来逐层计算每个神经元的梯度，并将梯度传递到前一层。
更新参数：根据计算得到的梯度，使用梯度下降法等优化方法来更新神经网络的参数（权重和偏置），以最小化损失函数的值。
迭代优化：重复执行步骤1-4多次，直到达到预设的迭代次数或收敛条件，得到优化后的神经网络参数。

需要注意的是，在反向传播过程中，可能会出现梯度消失或梯度爆炸的问题。为了缓解这些问题，可以使用一些技巧，如使用ReLU等非线性激活函数、批量标准化、残差连接等。

总的来说，DNN反向传播算法是一种迭代优化算法，通过计算损失函数对每个参数的梯度，并使用梯度下降法等优化方法来更新参数，从而逐渐优化神经网络的预测性能。

6. 均方差损失函数+Sigmoid激活函数的问题

均方差损失函数（Mean Squared Error Loss）和Sigmoid激活函数在深度神经网络中经常被使用。下面是一些关于它们的问题：

为什么选择均方差作为损失函数？

均方差损失函数在回归问题中非常常用，它通过计算预测值与真实值之间的差异来衡量模型的预测性能。均方差越小，说明模型的预测结果越准确。此外，均方差损失函数对于异常值较为敏感，能够更好地反映模型的鲁棒性。

Sigmoid激活函数的特点是什么？

Sigmoid激活函数可以将神经元的输出映射到0到1之间，具有非线性映射的能力。它可以有效地解决线性模型的表达能力不足的问题，从而使得神经网络能够更好地拟合复杂的非线性数据。此外，Sigmoid函数的输出可以解释为概率分布，因此在分类问题中也很常用。

为什么在深度神经网络中使用Sigmoid激活函数？

在深度神经网络中，Sigmoid激活函数可以提供一种有效的非线性映射方式，以增加模型的表达能力。此外，Sigmoid函数的输出可以解释为概率分布，因此在分类问题中也很常用。但是，在训练深度神经网络时，可能会出现梯度消失或梯度爆炸的问题，这会影响模型的训练效果。为了避免这些问题，可以使用一些技巧，如使用ReLU等非线性激活函数、批量标准化、残差连接等。

均方差损失函数和Sigmoid激活函数组合有什么问题？

当使用均方差损失函数和Sigmoid激活函数组合时，可能会出现梯度消失或梯度爆炸的问题。这是因为在训练深度神经网络时，梯度可能会随着层数的增加而逐渐消失或爆炸，这会影响模型的训练效果。为了避免这些问题，可以使用一些技巧来调整模型的参数和结构，如使用ReLU等非线性激活函数、批量标准化、残差连接等。此外，还可以使用正则化技术来减轻过拟合的问题。