一位外国小哥把整个Transformer都给可视化清楚了，这下彻底理解注意力机制了！

AI小白熊

于 2024-08-29 12:01:16 发布

阅读量706

点赞数 13

文章标签： transformer 深度学习人工智能音视频 llama 自动化产品经理

本文链接：https://blog.csdn.net/2401_85325726/article/details/141675186

版权

Transformer Explainer：一种可视化工具，帮助新手快速了解Transformer

ChatGPT 是一个使用 Transformers 和强化学习的 AI 工具。

Transformer 是一种可以将西班牙语翻译成英语、生成图像、撰写博客甚至生成计算机代码的模型。

它们可用于地理学，生物学，甚至医学领域各种问题。

因此，如果你想在生成式人工智能领域保持领先地位，你需要了解 Transformer Explainer

网页展示

感谢佐治亚理工学院和 IBM 的一些杰出研究人员，我们现在拥有了一款出色的 Transformer 可视化工具。该工具让我们可以全面了解 Transformer 内部发生的情况。此工具的一个很棒的功能是，您可以试用他们提供的示例或创建自己的示例。执行此操作时，您会看到转换器架构内的所有更改。

全部可视化过程

Temperature

TRANSFORMER EXPLAINER 的一个有趣功能是调整“温度”参数

这是什么？温度是控制 LLM 输出随机性的参数，它直接影响模型在生成文本时如何从可能的下一个单词中进行选择

如果将温度设置为 0.1，LLM 将始终生成最有可能的下一个单词，这对于回答问题等非常有用。但是，如果将温度设置为 1，LLM 将更有可能生成不太可能的下一个单词，这可能会产生更具创意的文本。

参数设置

Embedding

让我们仔细看看 Transformer Explainer 中的“embeding”部分。这部分将向我们展示如何转换标记。那么，embeding中发生了什么？当输入文本时，它会通过四个步骤转换为最终的embeding。

例如，让我们以“在地学万事屋公众号学习地理学知识”这句话为例。当它被标记化时，它会被拆分成 [“在”、“地学”、“万事屋”、“公众号”、“学习”、“地理学”、“知识”] 这样的标记。然后，每个标记都会被赋予一个唯一的标识符。

然后，标记嵌入步骤开始。这会将每个单词转换为数值数据，有点像将单词转换为数字。这允许模型理解和捕捉不同标记在含义上的相似程度。

接下来，我们进行位置编码。

“地学万事屋公众号”与“地学公众号万事屋”。它们听起来很像，但意思却完全不同

我们为每个单词的嵌入添加一个特殊向量，以指示其在句子中的位置。这些向量经过精心设计，以便模型可以从中学习以理解单词的顺序。

Embedding介绍

Multi-head Self Attention

然后，这种嵌入用于所谓的多头自注意力，它可以帮助模型识别标记之间的复杂关系和依赖关系，无论它们在句子中相距多远。从这个向量，我们计算出三个重要的输入：查询、键和值。这些允许模型根据当前标记的查询提供的上下文关注输入句子的不同部分。这意味着模型可以更加关注句子中任何时刻最重要的部分。

多头注意力图示

注意力分数决定了每个标记的值对“数据”的最终输出表示有多大的影响。对序列中的每个标记重复此过程，从而使模型能够捕获输入数据中的复杂关系和依赖关系。

注意力QKV图示

注意力得分是通过计算“数据”查询与所有标记的键的点积来计算的。计算点积后，我们将 softmax 函数应用于这些得分，以将它们转换为注意力权重。此步骤确保权重总和为 1，从而允许将它们解释为概率。最后，我们使用从 softmax 步骤获得的注意力权重，通过计算所有标记的值 (V) 的加权和来计算“数据”的输出。

MLP和Dropout图示

接下来，使用 dropout 来改善泛化并防止过度拟合，即在训练期间随机禁用一定比例的神经元。LayerNorm也用于稳定和加速深度神经网络的训练。它通过减去平均值并将其除以标准差来规范化层的输出。之后，使用模型学习的参数对输出进行缩放和移位。

零基础如何学习大模型 AI

领取方式在文末

为什么要学习大模型？

学习大模型课程的重要性在于它能够极大地促进个人在人工智能领域的专业发展。大模型技术，如自然语言处理和图像识别，正在推动着人工智能的新发展阶段。通过学习大模型课程，可以掌握设计和实现基于大模型的应用系统所需的基本原理和技术，从而提升自己在数据处理、分析和决策制定方面的能力。此外，大模型技术在多个行业中的应用日益增加，掌握这一技术将有助于提高就业竞争力，并为未来的创新创业提供坚实的基础。

大模型典型应用场景

①AI+教育：智能教学助手和自动评分系统使个性化教育成为可能。通过AI分析学生的学习数据，提供量身定制的学习方案，提高学习效果。
②AI+医疗：智能诊断系统和个性化医疗方案让医疗服务更加精准高效。AI可以分析医学影像，辅助医生进行早期诊断，同时根据患者数据制定个性化治疗方案。
③AI+金融：智能投顾和风险管理系统帮助投资者做出更明智的决策，并实时监控金融市场，识别潜在风险。
④AI+制造：智能制造和自动化工厂提高了生产效率和质量。通过AI技术，工厂可以实现设备预测性维护，减少停机时间。

⑤AI+零售：智能推荐系统和库存管理优化了用户体验和运营成本。AI可以分析用户行为，提供个性化商品推荐，同时优化库存，减少浪费。

⑥AI+交通：自动驾驶和智能交通管理提升了交通安全和效率。AI技术可以实现车辆自动驾驶，并优化交通信号控制，减少拥堵。

…
这些案例表明，学习大模型课程不仅能够提升个人技能，还能为企业带来实际效益，推动行业创新发展。