Transformer
文章平均质量分 94
关于GPT中Transformer的知识和理解。
White白小纯
计算机视觉硕士,软件工程博士生。
展开
-
Transformer03:位置编码(Positional Encoding)
位置编码是Transformer模型理解序列数据的一个关键组成部分。通过向模型提供关于序列中每个元素位置的信息,位置编码使得基于注意力的架构能够有效地处理语言等顺序数据。尽管其设计简单,位置编码却极大地增强了Transformer模型的能力,使其在多个自然语言处理任务中取得了前所未有的成功。原创 2024-03-19 23:49:55 · 1390 阅读 · 1 评论 -
Transformer 02:多头注意力机制的工作原理
本文介绍多头注意力机制的工作原理,最后附上代码示例,通过代码应用自注意力机制模块的步骤。多头注意力机制是Transformer架构中的一个关键创新,它允许模型在不同的表示子空间中并行地学习输入数据的不同方面。这种机制增加了模型的灵活性和能力,使其能够捕捉到更复杂的特征关系。多头注意力机制的核心思想是将注意力操作分拆成多个“头”,每个头独立地进行注意力计算,然后将这些计算的结果合并起来。原创 2024-03-19 00:21:14 · 4408 阅读 · 1 评论 -
Transformer 01:自注意力机制Q,K,V详解
在深度学习领域,一个神秘且强大的概念——自注意力机制(Self-Attention Mechanism),近年来成为了许多突破性成果的幕后英雄。从自然语言处理(NLP)到计算机视觉,自注意力机制正逐渐成为构建高效、强大模型的关键。但它究竟是什么?又是如何工作的?接下来将用通俗易懂的理解解释Transformer的工作原理。原创 2024-03-18 10:18:00 · 8740 阅读 · 0 评论