注意力机制
1.卷积、全连接和池化层都只考虑不随意线索
2.注意力机制则显示的考虑随意线索
(1)随意线索倍称之为查询(query)
(2)每个输入是一个值value,和不随意线索key的对
(3)通过注意力池化层来有偏向性的选择某些输入
总结
注意力机制中,通过query(随意线索)和key(不随意线索)来有偏向性的选择输入
代码实现:注意力汇聚:Nadaraya-Watson 核回归
!pip install d2l
import torch
from torch import nn
from d2l import torch as d2l
生成数据集
在这里生成了50个训练样本和50个测试样本。
n_train = 50 # 训练样本数
x_train, _ = torch.sort(torch.rand(n_train) * 5) # 排序后的训练样本
def f(x):
return 2 * torch.sin(x) + x**0.8
y_train = f(x_train) + torch.normal(0.0, 0.5, (n_train,)) # 训练样本的输出
x_test = torch.arange(0, 5, 0.1) # 测试样本
y_truth = f(x_test) # 测试样本的真实输出
n_test = len(x_test) # 测试样本数
n_test
50
下面的函数将绘制所有的训练样本(样本由圆圈表示), 不带噪声项的真实数据生成函数f
(标记为“Truth”), 以及学习得到的预测函数(标记为“Pred”)。
def plot_kernel_reg(y_hat):
d2l.plot(x_test, [y_truth, y_hat], 'x', 'y', legend=['Truth', 'Pred'],
xlim=[0, 5], ylim=[-1, 5])
d2l.plt.plot(x_train, y_train