【无标题】

2301_76917377

已于 2024-05-30 21:43:50 修改

阅读量1.1k

点赞数 33

文章标签：深度学习

于 2024-05-29 23:48:22 首次发布

本文链接：https://blog.csdn.net/2301_76917377/article/details/139307699

版权

深度学习导论

文章目录

- 深度学习导论
一、概论
- 1.1 简述神经网络的发展历史?
- 1.2 什么是过拟合和欠拟合，以及如何解决?
二、前向神经网
- 2.1 神经网络中激活函数的真正意义？一个激活函数需要具有哪些必要的属性？还有哪些属性是好的属性但不必要的
- 2.2 什么是梯度消失和梯度爆炸?
三、卷积神经网络
- 3.1 卷积网络中有哪些常见的操作？举例进行阐述
- 3.2 简单说说 CNN 常用的几个模型，各模型有哪些特点？
四、循环神经网络
- 4.1 循环神经网络有哪些经典结构？
- 4.2 LSTM 结构推导，为什么比 RNN 好？
五、变换器网络模型
- 2.1 什么是注意力机制和自注意力机制？
- 2.2 解释 Transformer 模型的体系结构？
六、深度学习优化器
- 6.1 如果设置学习率，太低或太高会发生什么?
- 6.2 正则化如何影响权重?
七、图像处理应用
- 7.1 常见的图像分类模型有哪些，主要共同点是什么？
- 7.2 R-CNN、Fast-RCNN 和 Faster-RCNN 三者的区别是什么?
八、自然语言处理应用
- 8.1 什么是词向量，常见的词词向量模型有哪些？
- 8.2 常见的文本分类、语言翻译、文本生成模型有哪些，简单解释它们网络结构 (每个任务选择一个模型

一、概论

在这里插入图片描述

1.1 简述神经网络的发展历史?

早期阶段（1940s-1960s）：神经网络的概念最早起源于上世纪 40 年代和 50 年代，当时人
们开始尝试模拟人类神经元的工作原理。
冷静期（1970s-1980s）：在这个阶段，由于计算资源有限以及一些理论上的限制，神经网
络的发展相对缓慢，被认为不够实用。
重新兴起（1980s-1990s）：在这个阶段，随着反向传播算法的提出和计算机性能的提高，
神经网络重新受到关注。这个时期出现了多层神经网络和深度学习的雏形。
深度学习时代（2000s 至今）：随着大数据、强大的计算资源和更好的算法的出现，深度学
习和神经网络在图像识别、自然语言处理等领域取得了巨大成功。深度学习已经成为人工智
能领域的重要分支。

1.2 什么是过拟合和欠拟合，以及如何解决?

答：过拟合：过拟合指的是模型在训练集上表现良好，但在测试集上表现不佳的情况。过拟
合通常是因为模型过于复杂，学习到了训练集中的噪声和细节，而缺乏泛化能力。
欠拟合：欠拟合指的是模型在训练集和测试集上表现都不佳的情况，通常是因为模型过于简
单，无法捕捉数据中的复杂关系。
过拟合解决方法：
正则化：通过在损失函数中添加正则化项，限制模型参数的大小，防止过度拟合。
早停：在训练过程中监控验证集的性能，当性能开始下降时停止训练，避免过拟合。
数据增强：增加训练数据的多样性，有助于提高模型的泛化能力。
欠拟合解决方法：
增加模型复杂度：增加神经网络的层数或神经元数量，提高模型的表达能力。
特征工程：添加更多有意义的特征，有助于提高模型对数据的拟合能力。
减少正则化：如果模型过度正则化导致欠拟合，可以适当减少正则化程度。

二、前向神经网

在这里插入图片描述

2.1 神经网络中激活函数的真正意义？一个激活函数需要具有哪些必要的属性？还有哪些属性是好的属性但不必要的

答：激活函数的真正意义：激活函数在神经网络中扮演着至关重要的角色，它的作用是引入
非线性特性，使神经网络可以学习和逼近复杂的非线性函数。没有激活函数的话，多层神经
网络将等同于单层神经网络。
激活函数需要具有的必要属性：1 非线性 2 可微性
好的属性但不是必要的：单调性，连续性，输出范围。

2.2 什么是梯度消失和梯度爆炸?

梯度消失：在深层神经网络中，反向传播算法中的梯度在传播过程中可能会变得非常小，甚至趋近于零。当梯度接近于零时，权重更新变得非常缓慢，甚至无法继续训练，导致模型无法收敛。这种现象被称为梯度消失。
梯度爆炸：与梯度消失相反，梯度爆炸指的是在反向传播过程中，梯度变得非常大，甚至超出了计算机的数值范围。这会导致权重更新过大，模型变得不稳定，甚至无法继续训练。

三、卷积神经网络

在这里插入图片描述

3.1 卷积网络中有哪些常见的操作？举例进行阐述

答：在卷积神经网络中，常见的操作包括：
卷积层：通过卷积操作提取输入特征。卷积层通常包括多个卷积核，每个卷积核用于检测输
入数据中的不同特征。
池化层：用于减小特征图的空间尺寸，降低计算量，同时保留重要特征。
激活函数层：引入非线性
全连接层：在网络的最后几层用于分类或回归任务，将卷积层提取的特征映射到输出类别。
举例：
以图像分类为例，一个简单的卷积神经网络结构可能包括：
卷积层：第一层卷积层可以提取图像中的边缘特征。
池化层：紧随卷积层的池化层可以减小特征图的尺寸。
卷积层：第二层卷积层可以提取更高级的特征，如纹理等。
池化层：再次进行池化操作。
全连接层：最后通过全连接层将提取的特征进行分类。

3.2 简单说说 CNN 常用的几个模型，各模型有哪些特点？

LeNet-5：
特点：是最早期的卷积神经网络之一，用于手写数字识别。包括卷积层、池化层和全连接层。
AlexNet：
特点：引入了深度卷积神经网络的概念。包括多个卷积层和池化层。
VGG：
特点：以简洁的结构和深层网络著称，采用多个小尺寸的卷积核。VGG16 和 VGG19 是常见
的版本。
GoogLeNet/Inception：
特点：引入了 Inception 模块，通过不同大小的卷积核并行提取特征，降低了参数数量。
ResNet：
特点：提出了残差学习的概念，通过残差连接解决了深层网络训练中的梯度消失和梯度爆炸问题。ResNet 包括多个残差块。

四、循环神经网络

![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/2b6e651343574e55a5b1af66f4354a6c.png#pic_center

4.1 循环神经网络有哪些经典结构？

答：标准 RNN，长短期记忆网络（LSTM），门控循环单元（GRU），
双向 RNN（BiRNN）

4.2 LSTM 结构推导，为什么比 RNN 好？

答：LSTM 的基本单元包括细胞状态和三个门：
细胞状态：负责长期信息的传递，贯穿整个序列。控制通过加法
和乘法操作，使信息流动更加稳定。
遗忘门：决定细胞状态中哪些信息需要遗忘。输入当前输入和前
一时刻的隐藏状态，输出一个 0 到 1 之间的值，控制信息的遗忘
程度。
输入门：控制新信息的加入。输入当前输入和前一时刻的隐藏状
态，决定哪些新信息需要加入到细胞状态中。
输出门：决定细胞状态中的哪些信息需要输出。控制最终输出的
隐藏状态。
LSTM 比标准 RNN 好的原因：
有效缓解梯度消失和梯度爆炸问题：通过门机制和细胞状态的设
计，LSTM 可以更好地保持和更新长期信息。
捕捉长时间依赖关系：可以在序列较长的情况下保持信息的稳定
流动，适用于长序列的处理任务。

五、变换器网络模型

在这里插入图片描述

2.1 什么是注意力机制和自注意力机制？

答：注意力机制：用于在处理序列数据时，动态选择和聚焦重要
信息。通过计算每个输入向量的注意力权重，重新加权后输入，
提高模型的表达能力。
自注意力机制：是注意力机制的一种，应用于同一个序列内部。
通过自注意力机制，每个位置的输出都依赖于整个序列的所有位
置的输入，捕捉长距离依赖关系。

2.2 解释 Transformer 模型的体系结构？

答：编码器：由多层编码器堆叠而成，每层包括一个自注意力层
和一个前馈神经网络层。自注意力层负责捕捉输入序列中的全局
依赖关系。前馈神经网络层对每个位置的向量进行独立处理。
解码器：与编码器类似，也由多层堆叠而成，但每层包含一个自
注意力层、一个编码器-解码器注意力层和一个前馈神经网络层。
编码器-解码器注意力层负责将编码器输出的信息引入解码器。
位置编码：因为 Transformer 没有循环结构，需要位置编码来注
入序列的位置信息，帮助模型区分不同位置的输入。
全连接层和 Softmax 层：用于最终的输出生成。

六、深度学习优化器

在这里插入图片描述

6.1 如果设置学习率，太低或太高会发生什么?

答：学习率太低：模型收敛速度慢，训练时间长。可能陷入局部
最优，无法充分学习到全局最优。
学习率太高：导致训练过程不稳定，损失函数震荡。可能导致模
型不收敛，甚至发散。

6.2 正则化如何影响权重?

答：L1 正则化：增加权重的稀疏性，很多权重被压缩到零，利
于特征选择。损失函数中加入权重的绝对值和作为正则项。
L2 正则化：减少权重的绝对值大小，使模型更平滑，防止过拟
合。损失函数中加入权重的平方和作为正则项。

七、图像处理应用

在这里插入图片描述总损失

7.1 常见的图像分类模型有哪些，主要共同点是什么？

答：LeNet，AlexNet，VGGNet，ResNet
共同点：都采用卷积神经网络（CNN）架构。包含卷积层、池化
层和全连接层。利用非线性激活函数（如 ReLU）增强模型表达
能力。使用数据增强和正则化技术防止过拟合。

7.2 R-CNN、Fast-RCNN 和 Faster-RCNN 三者的区别是什么?

答：R-CNN：对每个候选区域进行卷积神经网络处理，特征提取和分类分开进行。缺点是计算量大，处理速度慢。
Fast R-CNN：对整个图像进行卷积处理，然后通过区域建议网络生成候选区域。在候选区域上使用 RoI 池化层，提取特征进行分类和边框回归。提升了速度和效率。
Faster R-CNN：
引入了 RPN 网络，直接在卷积特征图上生成候选区域。整合了RPN 和 Fast R-CNN，进一步提升了检测速度和精度。

八、自然语言处理应用

在这里插入图片描述

8.1 什么是词向量，常见的词词向量模型有哪些？

答：词向量：将词表示为实数向量，使词之间的语义关系能够通过向量空间中的距离和方向体现。
常见的词向量模型包括：Word2Vec，GloVe，FastText

8.2 常见的文本分类、语言翻译、文本生成模型有哪些，简单解释它们网络结构 (每个任务选择一个模型

答：
文本分类：BERT
基于 Transformer 的预训练语言模型。使用双向 Transformer编码器，能够捕捉句子前后文信息。预训练后通过微调适应不同的下游任务，如文本分类。
语言翻译：Transformer
采用编码器-解码器架构。编码器将源语言句子编码为上下文向量，解码器根据上下文向量生成目标语言句子。使用自注意力机制和位置编码捕捉全局依赖关系。
文本生成：GPT-3
基于 Transformer 的生成式预训练模型。使用大量无监督文本数据进行预训练，通过预测下一个词生成文本。在生成任务中通过输入前缀生成高质量、连贯的长文本。