神经网络与深度学习-第四次总结_nerf 注意力机制-CSDN博客

本文链接：https://blog.csdn.net/qq_47561888/article/details/138494966

循环神经网络与NLP

1序列模型

图像分类：当前输入->当前输出

时间序列预测：当前+过去输入->当前输出

自回归模型:通过利用时间序列自身的延迟值来预测未来值。常见的自回归模型包括AR、ARMA、ARIMA等

2数据预处理

在NLP任务中，数据预处理是非常关键的一步。它包括文本清洗、分词、去除停用词等操作，以及将文本转化为模型可接受的格式。合理的数据预处理能够提高模型的训练效果和泛化能力。

3文本预处理与词嵌入

文本处理是NLP任务中的核心环节，而词嵌入则是将文本数据转化为向量表示的重要技术。词嵌入模型如Word2Vec、GloVe等能够将单词映射到高维空间中的稠密向量，从而更好地表达单词之间的语义关系。

一篇文章可以被简单地看作一串单词序列，甚至是一串字符序列。我们将解析文本的常见预处理步骤。这些步骤通常包括： 1.将文本作为字符串加载到内存中。 2.将字符串切分为词元（如单词和字符）。 3.建立一个字典，将拆分的词元映射到数字索引。 4.将文本转换为数字索引序列，方便模型操作。

4RNN模型

循环神经网络（RNN是一种具有循环连接的神经网络结构，专门用于处理序列数据。与传统神经网络不同，RNN具有记忆功能，能够保持对序列中先前信息的状态。这种记忆使得RNN在处理自然语言、时间序列等具有时序性质的数据时非常有效。
RNN的基本结构包括一个循环单元，该单元在每个时间步接收输入和前一时间步的隐藏状态，并输出当前时间步的隐藏状态。这种循环结构使得RNN能够对序列数据进行逐步处理，并在整个序列中保持记忆。然而，传统的RNN存在梯度消失和梯度爆炸等问题，限制了其在长序列上的表现。

5门控循环单元

门控循环单元（GRU）是一种循环神经网络（RNN）架构，于2014年由Cho等人提出。GRU通过引入更新门和重置门来解决传统RNN在长序列学习中面临的梯度消失问题。更新门帮助模型决定在每个时间步中保留多少之前的信息，而重置门决定忘记多少既有信息。这使得GRU能够在各种序列预测任务中，如语音识别或语言建模中，有效地捕捉长距离依赖。

6长短期记忆网络(LSTM)

长短期记忆网络（LSTM）是一种特殊的循环神经网络架构，由Hochreiter和Schmidhuber于1997年引入。LSTM设计用于克服传统RNN在处理长序列数据时的梯度消失问题。它通过引入一个复杂的门控机制，包括遗忘门、输入门和输出门，来调控信息的流入、保留和流出。LSTM在多种时间序列数据处理任务中表现优异，包括文本生成、语音识别和机器翻译。

7深度循环神经网络

深度循环神经网络（Deep RNN）是指包含多个隐层的循环神经网络。每一层都处理前一层的输出，然后将信息传递到下一层。深度RNN通过增加网络的深度，可以捕获更加复杂的模式和依赖关系，但同时也可能带来更难以训练和调整的问题。深度RNN被广泛应用于自然语言处理、语音识别和视频分析等领域。

8生成对抗网络

生成对抗网络（GANs, generative adversarial networks）是由Ian Goodfellow等人在2014年的Generative Adversarial Networks一文中提出。模型通过框架中（至少）两个模块：生成模型（Generative Model）和判别模型（Discriminative Model）的互相博弈学习产生相当好的输出。原始 GAN 理论中，并不要求 G 和 D 都是神经网络，只需要是能拟合相应生成和判别的函数即可。但实用中一般均使用深度神经网络作为 G 和 D 。一个优秀的GAN应用需要有良好的训练方法，否则可能由于神经网络模型的自由性而导致输出不理想。
生成对抗网络(GAN)的初始原理十分容易理解，即构造两个神经网络，一个生成器，一个鉴别器，二者互相竞争训练，最后达到一种平衡(纳什平衡)。GAN 启发自博弈论中的二人零和博弈（two-player game），GAN 模型中的两位博弈方分别由生成式模型（generativemodel，G）和判别式模型（discriminative model，D）充当。生成模型 G 捕捉样本数据的分布，用服从某一分布（均匀分布，高斯分布等）的噪声 z 生成一个类似真实训练数据的样本，追求效果是越像真实样本越好。判别模型 D 是一个二分类器，估计一个样本来自于训练数据（而非生成数据）的概率，如果样本来自于真实的训练数据，D 输出大概率，否则，D 输出小概率。

9神经辐射场

神经辐射场（NeRF）是一种用于三维场景重建的技术，它使用深度学习来建模和渲染复杂场景的细节。通过优化神经网络来预测光线穿过场景时的颜色和密度，NeRF可以产生高度逼真的三维图像。

10注意力机制

注意力机制是一种模拟人类视觉和认知过程的机制，用于增强神经网络对输入数据的处理能力。它允许模型在处理输入数据时，集中注意力于与当前任务相关的部分，从而提高模型的表现和泛化能力。
在注意力机制中，模型通过学习权重，来动态地调整输入数据的处理重点。这些权重用于指示模型在进行计算时，对输入数据的不同部分分配不同的注意力程度。在深度学习中，注意力机制通常用于处理序列数据（如文本、语音、时间序列等）和图像数据。

在自然语言处理领域中，注意力机制常用于序列到序列（sequence-to-sequence）任务，如机器翻译和摘要生成。在这些任务中，编码器将输入序列编码为上下文向量，然后解码器根据上下文向量和当前解码状态生成输出序列。注意力机制允许解码器在生成每个输出时，动态地关注输入序列中与当前解码位置相关的部分。
在计算机视觉领域中，注意力机制常用于处理图像数据，如图像分类、目标检测和图像生成。在这些任务中，注意力机制可以帮助模型在处理图像时，集中关注图像中的重要部分，从而提高模型的准确性和鲁棒性。