AI作业第11次-CSDN博客

本文链接：https://blog.csdn.net/m0_54091280/article/details/131021765

前馈网络在处理序列数据和考虑上下文信息时存在局限，而循环神经网络（RNN）通过记忆单元解决了这些问题，适应变长输入。BPTT算法用于训练RNN，Seq2Seq模型结合编码器和解码器处理序列任务。同时，梯度消失和梯度爆炸是神经网络训练中的挑战。

摘要由CSDN通过智能技术生成

前馈网络存在的问题
1.只能处理静态输入，无法考虑上下文信息；2.对于高维输入，需要大量的训练数据来避免过拟合；3.容易受到局部极小值的影响，导致训练过程不稳定；4.无法处理序列数据，如文本和时间序列等。
序列数据
具有先后顺序的一组数据，常见的序列数据可以分为:时间序列（如:天气观测数据）、符号序列（如:语言）、生物序列（如:基因序列，蛋白质序列）三种。
循环神经网络（RNN）为什么能解决前馈网络中的问题
循环神经网络通过引入“记忆单元”（memory cell）来解决这些问题，每一次处理时序数据时，记忆单元都会接收前一次的处理结果和上一次的记忆状态作为输入，这样就能够记忆之前的信息，同时根据之前的信息来影响下一次的处理。另外，循环神经网络还可以有可变长度的输入和输出。这是因为记忆单元的状态是动态更新的，可以根据不同的输入长度进行扩展或者缩短。
卷积神经网络（CNN）与循环神经网络（RNN）的异同
卷积神经网络的输入数据是空间数据，且输入数据是独立的，输入的大小是固定的，经常用在计算机视觉方面；而循环神经网络的输入数据是序列数据，输入数据是相关的，变长的输入序列，通常用于自然语言处理方面。
沿时间反向传播算法（BPTT）
通过时间反向传播是一种用于训练循环神经网络的方法。
BPTT的基本思想是将RNN展开成一个时间步的序列，然后在这个展开的序列上应用标准的反向传播算法。具体而言，BPTT将RNN的每个时间步看作是网络的一个层，通过展开网络，可以得到多个层之间的连接关系。这样，就可以将RNN的误差从输出层反向传播到每个时间步的隐藏层，进而更新网络的权重参数。
序列到序列模型 seq2seq
序列到序列模型（Sequence-to-Sequence，Seq2Seq）是一种用于处理序列数据的神经网络模型，常用于机器翻译、文本摘要、对话生成等任务。Seq2Seq模型由两个主要的组成部分构成：编码器（Encoder）和解码器（Decoder）。
编码器负责将输入序列（源序列）转化为一个固定长度的向量，称为上下文向量（Context Vector）或隐藏状态（Hidden State）。编码器通常采用循环神经网络（RNN），如长短时记忆网络（LSTM）或门控循环单元（GRU），来处理变长的输入序列并捕捉序列的语义和特征信息。
解码器接收上下文向量作为输入，并生成目标序列（目标语言）的输出。解码器同样使用循环神经网络，它在每个时间步生成一个目标词或符号，同时利用上一个时间步的隐藏状态和上下文向量来获得语义和上下文信息。解码器通常使用注意力机制（Attention Mechanism）来动态地关注输入序列的不同部分，从而提高翻译或生成的准确性和流畅度。
梯度消失、梯度爆炸
神经网络在进行反向传播(BP)的时候会对参数W进行更新，梯度消失就是靠后面网络层(如layer3)能够正常的得到一个合理的偏导数，但是靠近输入层的网络层，计算的到的偏导数近乎零，W几乎无法得到更新。
梯度爆炸:靠近输入层的网络层，计算的到的偏导数极其大，更新后W变成一个很大的数(爆炸)。
理论上，一个神经网络越接近输入端的网络层越容易发生梯度消失/爆炸，这也就导致了靠近输入端的权重矩阵的更新ΔW （梯度）过小/过大（除非调整学习率 α，但这又会给靠近输出端的权重矩阵的更新带来问题）。