一文让你由浅入深的理解Transform模型

最新推荐文章于 2025-03-23 16:29:35 发布

lhz泽少

最新推荐文章于 2025-03-23 16:29:35 发布

阅读量1.5w

点赞数 13

文章标签：自然语言处理深度学习神经网络人工智能

本文链接：https://blog.csdn.net/li15006474642/article/details/104391202

版权

Transform模型是深度学习中的一个重要模型，克服了神经网络的梯度消失、串行计算等问题。文章详细介绍了self-Attention机制，通过计算词与词之间的关系实现上下文信息的融合，并通过Position Embedding处理序列信息。Transform模型包含Encoder和Decoder，核心运算为Self-Attention，解决了LSTM的并行计算限制。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

简单解释

Transform是在神经网络之后又发展的一个比较流行的深度模型，今天就给大家解释一下这个模型的原理。首先先抛出一个问题？神经网络有哪些缺点，或者是LSTM有什么不足之处，以至于让我们又发展了Transform这个深度模型？在这里我自己总结出了几点：

1、难解释性，神经网络的一个通病，做出来的好坏都比较难解释，

2、梯度消失和梯度爆炸的问题。

3、 LSTM只能串行计算，不能并行，因为它是一个时序类的模型。

4、对于翻译这类生成模型计算起来比较复杂，耗时比较长而且效果也不是很好。

5、由于梯度消失而导致的忽略了部分的特征提取。

等等还有其他原因导致我们在一些任务上处理的不是很好，但是神经网络还在发展阶段，我很看好它们后续的发展。

其实对于nlp常用的LSTM和GRU来说最大的问题还是在于梯度消失和不能并行计算，因此后来的科学家发展了另外一种特征提取的方式或者模型叫做Self-Attention，这也是transform最核心的部分，所以想要了解transform先要了解self-Attention的原理

self-Attention

self-attention的原理很简单，就是计算每个词与所有词之间的“关系”，举个例子:比如有这样的一句话：“今天天气很好天空特别蓝”分完词后：“今天”，“天气”，“很好”，“天空”，“特别蓝”，他们对应的词向量是V(今天)，V(天气)，V(很好)，V(天空)，V(特别蓝)，self-attention处理过程如图：

最低0.47元/天解锁文章