一文让你由浅入深的理解Transform模型

Transform模型是深度学习中的一个重要模型,克服了神经网络的梯度消失、串行计算等问题。文章详细介绍了self-Attention机制,通过计算词与词之间的关系实现上下文信息的融合,并通过Position Embedding处理序列信息。Transform模型包含Encoder和Decoder,核心运算为Self-Attention,解决了LSTM的并行计算限制。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

简单解释

Transform是在神经网络之后又发展的一个比较流行的深度模型,今天就给大家解释一下这个模型的原理。首先先抛出一个问题?神经网络有哪些缺点,或者是LSTM有什么不足之处,以至于让我们又发展了Transform这个深度模型?在这里我自己总结出了几点:

1、 难解释性,神经网络的一个通病,做出来的好坏都比较难解释,

2、 梯度消失和梯度爆炸的问题。

3、 LSTM只能串行计算,不能并行,因为它是一个时序类的模型。

4、 对于翻译这类生成模型计算起来比较复杂,耗时比较长而且效果也不是很好。

5、 由于梯度消失而导致的忽略了部分的特征提取。

等等还有其他原因导致我们在一些任务上处理的不是很好,但是神经网络还在发展阶段,我很看好它们后续的发展。

其实对于nlp常用的LSTM和GRU来说最大的问题还是在于梯度消失和不能并行计算,因此后来的科学家发展了另外一种特征提取的方式或者模型叫做Self-Attention,这也是transform最核心的部分,所以想要了解transform先要了解self-Attention的原理

self-Attention

self-attention的原理很简单,就是计算每个词与所有词之间的“关系”,举个例子:比如有这样的一句话:“今天天气很好天空特别蓝”分完词后:“今天”,“天气”,“很好”,“天空”,“特别蓝”,他们对应的词向量是V(今天),V(天气),V(很好),V(天空),V(特别蓝),self-attention处理过程如图:

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值