自注意力机制 python代码

抓猫去搬砖

于 2024-08-11 03:38:07 发布

阅读量35

点赞数

文章标签： python 开发语言

我整理的一些关于【CI】的项目学习资料（附讲解～～）和大家一起分享、学习一下：

https://d.51cto.com/bLN8S1

深入理解自注意力机制并实现其 Python 代码

自注意力机制（Self-Attention Mechanism）是近年来深度学习中一种非常流行的序列建模技术，它在自然语言处理、计算机视觉等领域得到了广泛应用。从 Transformers 模型到 BERT 和 GPT 系列，自注意力机制都是其核心部分。本文将带领初学者理解自注意力机制的实现流程，并提供详细的 Python 代码示例。

实现步骤

下面是实现自注意力机制的主要步骤：

步骤	描述
第一步	准备输入数据
第二步	创建查询、键和值（Q, K, V）
第三步	计算注意力权重
第四步	应用注意力权重生成输出
第五步	整合输出

详细步骤解析

第一步：准备输入数据

我们需要一个输入序列，一般是以二维数组的形式表示。一维代表词汇数量，二维代表特征维度。下面是准备输入的代码：

import numpy as np

# 准备输入数据，这里使用一个简单的例子，表示三个单词的嵌入
input_data = np.array([[1, 0, 1], 
                        [0, 1, 0], 
                        [1, 1, 0]])  # 三个单词的特征向量

print("输入数据：")
print(input_data)

第二步：创建查询、键和值

在自注意力中，我们通常将输入数据转换为三个不同的向量：查询（Q），键（K），值（V）。这通常通过乘以不同的权重矩阵来实现。下面是代码实现：

# 定义权重矩阵
W_q = np.random.rand(3, 3)  # 查询权重
W_k = np.random.rand(3, 3)  # 键权重
W_v = np.random.rand(3, 3)  # 值权重

# 计算 Q, K, V
Q = input_data.dot(W_q)  # 计算查询向量
K = input_data.dot(W_k)  # 计算键向量
V = input_data.dot(W_v)  # 计算值向量

print("查询向量 Q：")
print(Q)
print("键向量 K：")
print(K)
print("值向量 V：")
print(V)

第三步：计算注意力权重

自注意力权重的计算是通过点积计算得到的。我们对 Q 和 K 进行点积，然后通过 Softmax 函数将其转换为概率分布（权重）。代码如下：

# 计算注意力权重
attention_scores = np.dot(Q, K.T)  # Q 和 K 的点积
attention_weights = softmax(attention_scores)

def softmax(x):
    e_x = np.exp(x - np.max(x))  # 防止溢出
    return e_x / e_x.sum(axis=1, keepdims=True)  # 行归一化

print("注意力权重：")
print(attention_weights)

第四步：应用注意力权重生成输出

使用注意力权重对值 V 进行加权求和，得到最终的输出：

第五步：整合输出

最后，我们将前面的步骤整合在一起，形成一个完整的自注意力机制单元。

以下是完整代码的展示：

import numpy as np

def softmax(x):
    e_x = np.exp(x - np.max(x))
    return e_x / e_x.sum(axis=1, keepdims=True)

# 准备输入数据
input_data = np.array([[1, 0, 1], 
                        [0, 1, 0], 
                        [1, 1, 0]])

# 定义权重矩阵
W_q = np.random.rand(3, 3)
W_k = np.random.rand(3, 3)
W_v = np.random.rand(3, 3)

# 计算 Q, K, V
Q = input_data.dot(W_q)
K = input_data.dot(W_k)
V = input_data.dot(W_v)

# 计算注意力权重
attention_scores = np.dot(Q, K.T)
attention_weights = softmax(attention_scores)

# 计算最终输出
output = np.dot(attention_weights, V)
print("最终输出：")
print(output)