Transformer讲解 - 注意力机制

最新推荐文章于 2024-07-14 14:26:38 发布

Cc不爱吃洋葱

最新推荐文章于 2024-07-14 14:26:38 发布

阅读量573

点赞数 30

文章标签： transformer 深度学习人工智能 tensorflow python langchain 服务器

本文链接：https://blog.csdn.net/2401_85328934/article/details/139647838

版权

从端到端的角度来看，数据在Transformer中的流转可以概括为四个阶段：Embedding（嵌入）、Attention（注意力机制）、MLPs（多层感知机）和Unembedding（从模型表示到最终输出）。
在这里插入图片描述
下面对第二个阶段Attention（注意力机制）进行详细介绍：

Attention（注意力机制）的目的：

在自然语言处理（NLP）中，嵌入向量（Embedding Vector）是单词或文本片段的数值表示，它们捕捉了这些单词或文本片段的语义信息。
嵌入向量作为输入传递给Transformer的Attention模块时，Attention模块会通过Q、K、V计算注意力权重，从而分析这些向量，使得Embedding向量间能够相互"交流"并根据彼此信息更新自身的值。
Attention模块的主要作用是确定在给定上下文中哪些嵌入向量与当前任务最相关，并据此更新或调整这些嵌入向量的表示。
这种“相关性”通常基于单词之间的语义关系，即它们如何相互关联以形成有意义的句子或段落。
在这里插入图片描述
神经网络算法 - 一文搞懂Attention（注意力）机制
Attention（注意力机制）的工作流程：

生成Q、K、V向量：对于输入序列中的每个单词，都会生成对应的Query（查询）、Key（键）和Value（值）向量。这些向量通常是通过将单词的嵌入向量（Embedding Vector）输入到一个线性变换层得到的。

计算Q、K的点积（注意力分数）：Attention机制会计算Query向量与序列中所有单词的Key向量之间的点积（或其他相似度度量），得到一个分数。这个分数反映了Query向量与每个Key向量之间的相似度，即每个单词与当前位置单词的关联程度。

Softmax函数归一化（注意力权重）：这些分数会经过一个Softmax函数进行归一化，得到每个单词的注意力权重。这些权重表示了在理解当前单词时，应该给予序列中其他单词多大的关注。

注意力权重加权求和（加权和向量）：这些注意力权重与对应的Value向量进行加权求和，得到一个加权和向量。这个加权和向量会被用作当前单词的新表示，包含了更丰富的上下文信息。

在处理每个单词时，模型都能够考虑到整个输入序列的信息，并根据单词之间的语义关系来更新单词的表示。这使得Transformer模型能够能够更准确地理解单词在当前上下文中的含义，进而解决上下文依赖问题。
在这里插入图片描述
Attention（注意力机制）的实际案例：

以单词“model”为例，在“machine learning model”（机器学习模型）和“fashion model”（时尚模特）这两个不同的上下文中，它的含义是不同的。

当Attention模块处理包含“model”的句子时，它会查看句子中的其他单词（如“machine learning”或“fashion”），并确定这些单词与“model”之间的语义关系。

Attention模块会计算一个权重，该权重表示其他单词对理解“model”在当前上下文中的含义的重要性。这些权重被用来更新“model”的嵌入向量，以便更好地反映其在当前上下文中的意义。

Attention模块的作用就是确定上下文中哪些词之间有语义关系，以及如何准确地理解这些含义，更新相应的向量。
在这里插入图片描述

那么，我们该如何学习大模型？

作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一、大模型全套的学习路线

学习大型人工智能模型，如GPT-3、BERT或任何其他先进的神经网络模型，需要系统的方法和持续的努力。既然要系统的学习大模型，那么学习路线是必不可少的，下面的这份路线能帮助你快速梳理知识，形成自己的体系。

L1级别:AI大模型时代的华丽登场

L2级别：AI大模型API应用开发工程

L3级别：大模型应用架构进阶实践

L4级别：大模型微调与私有化部署

一般掌握到第四个级别，市场上大多数岗位都是可以胜任，但要还不是天花板，天花板级别要求更加严格，对于算法和实战是非常苛刻的。建议普通人掌握到L4级别即可。

以上的AI大模型学习路线，不知道为什么发出来就有点糊，高清版可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

四、AI大模型商业化落地方案

作为普通人，入局大模型时代需要持续学习和实践，不断提高自己的技能和认知水平，同时也需要有责任感和伦理意识，为人工智能的健康发展贡献力量。

Cc不爱吃洋葱

关注

30
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
Transformer讲解 - 注意力机制

从端到端的角度来看，数据在Transformer中的流转可以概括为四个阶段：Embedding（嵌入）、Attention（注意力机制）、MLPs（多层感知机）和Unembedding（从模型表示到最终输出）。下面对第二个阶段Attention（注意力机制）进行详细介绍：Attention（注意力机制）的目的：在自然语言处理（NLP）中，嵌入向量（Embedding Vector）是单词或文本片段的数值表示，它们捕捉了这些单词或文本片段的语义信息。
复制链接

扫一扫