神经网络与深度学习-第四次总结

循环神经网络与NLP

1序列模型

图像分类:当前输入->当前输出

时间序列预测:当前+过去输入->当前输出

自回归模型:通过利用时间序列自身的延迟值来预测未来值。常见的自回归模型包括AR、ARMA、ARIMA等

2数据预处理

在NLP任务中,数据预处理是非常关键的一步。它包括文本清洗、分词、去除停用词等操作,以及将文本转化为模型可接受的格式。合理的数据预处理能够提高模型的训练效果和泛化能力。

3文本预处理与词嵌入

          文本处理是NLP任务中的核心环节,而词嵌入则是将文本数据转化为向量表示的重要技术。词嵌入模型如Word2Vec、GloVe等能够将单词映射到高维空间中的稠密向量,从而更好地表达单词之间的语义关系。

   一篇文章可以被简单地看作一串单词序列,甚至是一串字符序列。 我们将 解析文本的常见预处理步骤。 这些步骤通常包括: 1.将文本作为字符串加载到内存中。 2.将字符串切分为词元(如单词和字符)。 3.建立一个字典,将拆分的词元映射到数字索引。 4.将文本转换为数字索引序列,方便模型操作。

4RNN模型

 循环神经网络(RNN是一种具有循环连接的神经网络结构,专门用于处理序列数据。与传统神经网络不同,RNN具有记忆功能,能够保持对序列中先前信息的状态。这种记忆使得RNN在处理自然语言、时间序列等具有时序性质的数据时非常有效。
RNN的基本结构包括一个循环单元,该单元在每个时间步接收输入和前一时间步的隐藏状态,并输出当前时间步的隐藏状态。这种循环结构使得RNN能够对序列数据进行逐步处理,并在整个序列中保持记忆。然而,传统的RNN存在梯度消失和梯度爆炸等问题,限制了其在长序列上的表现。

5门控循环单元

门控循环单元(GRU)是一种循环神经网络(RNN)架构,于2014年由Cho等人提出。GRU通过引入更新门和重置门来解决传统RNN在长序列学习中面临的梯度消失问题。更新门帮助模型决定在每个时间步中保留多少之前的信息,而重置门决定忘记多少既有信息。这使得GRU能够在各种序列预测任务中,如语音识别或语言建模中,有效地捕捉长距离依赖。

6长短期记忆网络(LSTM)

长短期记忆网络(LSTM)是一种特殊的循环神经网络架构,由Hochreiter和Schmidhuber于1997年引入。LSTM设计用于克服传统RNN在处理长序列数据时的梯度消失问题。它通过引入一个复杂的门控机制,包括遗忘门、输入门和输出门,来调控信息的流入、保留和流出。LSTM在多种时间序列数据处理任务中表现优异,包括文本生成、语音识别和机器翻译。

7深度循环神经网络

深度循环神经网络(Deep RNN)是指包含多个隐层的循环神经网络。每一层都处理前一层的输出,然后将信息传递到下一层。深度RNN通过增加网络的深度,可以捕获更加复杂的模式和依赖关系,但同时也可能带来更难以训练和调整的问题。深度RNN被广泛应用于自然语言处理、语音识别和视频分析等领域。

8生成对抗网络

生成对抗网络(GANs, generative adversarial networks)是由Ian Goodfellow等人在2014年的Generative Adversarial Networks一文中提出。模型通过框架中(至少)两个模块:生成模型(Generative Model)和判别模型(Discriminative Model)的互相博弈学习产生相当好的输出。原始 GAN 理论中,并不要求 G 和 D 都是神经网络,只需要是能拟合相应生成和判别的函数即可。但实用中一般均使用深度神经网络作为 G 和 D 。一个优秀的GAN应用需要有良好的训练方法,否则可能由于神经网络模型的自由性而导致输出不理想。
生成对抗网络(GAN)的初始原理十分容易理解,即构造两个神经网络,一个生成器,一个鉴别器,二者互相竞争训练,最后达到一种平衡(纳什平衡)。GAN 启发自博弈论中的二人零和博弈(two-player game),GAN 模型中的两位博弈方分别由生成式模型(generativemodel,G)和判别式模型(discriminative model,D)充当。生成模型 G 捕捉样本数据的分布,用服从某一分布(均匀分布,高斯分布等)的噪声 z 生成一个类似真实训练数据的样本,追求效果是越像真实样本越好。判别模型 D 是一个二分类器,估计一个样本来自于训练数据(而非生成数据)的概率,如果样本来自于真实的训练数据,D 输出大概率,否则,D 输出小概率。

9神经辐射场

神经辐射场(NeRF)是一种用于三维场景重建的技术,它使用深度学习来建模和渲染复杂场景的细节。通过优化神经网络来预测光线穿过场景时的颜色和密度,NeRF可以产生高度逼真的三维图像。

10注意力机制

注意力机制是一种模拟人类视觉和认知过程的机制,用于增强神经网络对输入数据的处理能力。它允许模型在处理输入数据时,集中注意力于与当前任务相关的部分,从而提高模型的表现和泛化能力。
在注意力机制中,模型通过学习权重,来动态地调整输入数据的处理重点。这些权重用于指示模型在进行计算时,对输入数据的不同部分分配不同的注意力程度。在深度学习中,注意力机制通常用于处理序列数据(如文本、语音、时间序列等)和图像数据。

  在自然语言处理领域中,注意力机制常用于序列到序列(sequence-to-sequence)任务,如机器翻译和摘要生成。在这些任务中,编码器将输入序列编码为上下文向量,然后解码器根据上下文向量和当前解码状态生成输出序列。注意力机制允许解码器在生成每个输出时,动态地关注输入序列中与当前解码位置相关的部分。
在计算机视觉领域中,注意力机制常用于处理图像数据,如图像分类、目标检测和图像生成。在这些任务中,注意力机制可以帮助模型在处理图像时,集中关注图像中的重要部分,从而提高模型的准确性和鲁棒性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值