深度学习——注意力机制(笔记+代码)

 1.从心理学的角度出发

人类根据随意线索(随着意志,主动的,有意识)和不随意线索(无主动,潜意识)选择注意点

第一眼看到红色咖啡杯比较突出和易见就是潜意识的不随意线索

 随着意识想主动读书,看到的书就是随意线索

2.注意力机制

①卷积,全连接,池化层都只考虑不随意线索,因为它们让数据原有的特点更加突出,能让特点注意到,就是不随意。

Ⅰ池化层操作是将感受野范围最大值提取出来(最大池化)

Ⅱ卷积操作是将输入全部通过卷积核进行操作,提取出明显的特征。

②注意力机制则显示的考虑随意线索(想要的

Ⅰ随意线索称为查询(query)—想要做的

Ⅱ每个输入是一个值(value)和不随意线索(key)的键值对—理解为环境,就是键值对,key和value可以相同和不同

Ⅲ通过注意力池化层偏向的选择某些输入—根据query偏向的选择输入,显示的加入query,根据query查询所需要的东西。

 3.非参注意力池化层:不需要学习参数

非参:不需要学习参数

x,y:key-value键值对

f(x):就是query查询的东西

平均池化:最简单的方案,不需要管查询的东西(f(x)的x),只对y求和取平均就可以了。

4. Nadaraya-Watson 核回归:

①核:K函数,衡量x和xi之间距离的函数

②在给定的数据进行查询xi,选择和新给定的值比较近的数据,然后将这些数据对应的value值进行加权求和,得到最终的query,不需要学习参数。

5.K的选择:高斯核

 

代入公式得到

①U:x-xi代表之间的距离

②exp:结果是大于0的数

③softmax得到0-1之间的数作为权重

④上述公式加一个可学习的参数w

 

【总结】

①心理学认为人通过随意线索和不随意线索选择注意点

②注意力机制中,通过query(随意线索)和key(不随意线索)偏向选择输入,写作

 

 f(x)的 key 和所有的不随意线索的 key 做距离上的计算(α(x,xi),通常称为注意力权重),分别作为所有的 value 的权重

【代码】

import torch
from torch import nn
from d2l import torch as d2l

1.生成数据集

n_train = 50  # 训练数据样本
x_train, _ = torch.sort(torch.rand(n_train) * 5)  # 排序后的训练样本

def f(x):
    return 2 * torch.sin(x) + x ** 0.8


y_train = f(x_train) + torch.normal(0.0, 0.5, (n_train,))  # 训练样本的输出
x_test = torch.arange(0, 5, 0.1)  # 测试样本
y_truth = f(x_test)  # 测试样本的真实输出
n_test = len(x_test)


def plot_kernel_reg(y_hat):
    d2l.plot(x_test, [y_truth, y_hat], 'x', 'y', legend=['Truth', 'Pred'],
             xlim=[0, 5], ylim=[-1, 5])
    d2l.plt.plot(x_train, y_train, 'o', alpha=0.5);

2.平均汇聚

y_hat = torch.repeat_interleave(y_train.mean(), n_test)
plot_kernel_reg(y_hat)

3.非参数注意力汇聚

#  x_repeat的形状是(n_test,n_train),每一行包含相同的测试输入
X_repeat = x_test.repeat_interleave(n_train).reshape((-1, n_train))
# x_train包含着键。attention_weights的形状:(n_test,n_train),
# 每一行都包含着要在给定的每个查询的值(y_train)之间分配的注意力权重
attention_weights = nn.functional.softmax(-(X_repeat - x_train) ** 2 / 2, dim=1)
# y_hat的每个元素都是值的加权平均值,其中的权重是注意力权重
y_hat = torch.matmul(attention_weights, y_train)
plot_kernel_reg(y_hat)

4.训练可以学习的参数

# 使用小批量乘法计算加权平均值
weights = torch.ones((2, 10)) * 0.1
values = torch.arange(20.0).reshape((2, 10))
torch.bmm(weights.unsqueeze(1), values.unsqueeze(-1))

5.带参数的注意力汇聚

class NWKernelRegression(nn.Module):
    def __init__(self, **kwargs):
        super().__init__(**kwargs)
        self.w = nn.Parameter(torch.rand((1,), requires_grad=True))

    def forward(self, queries, keys, values):
        # queries和attention_weights的形状为(查询个数,“键-值”对个数)
        queries = queries.repeat_interleave(keys.shape[1]).reshape((-1, keys.shape[1]))
        self.attention_weights = nn.functional.softmax(
            -((queries - keys) * self.w) ** 2 / 2, dim=1)
        # values的形状为(查询个数,“键-值”对个数)
        return torch.bmm(self.attention_weights.unsqueeze(1),
                         values.unsqueeze(-1)).reshape(-1)

6.将训练数据集转换为键和值

# X_tile的形状:(n_train,n_train),每一行都包含着相同的训练输入
X_tile = x_train.repeat((n_train, 1))
# Y_tile的形状:(n_train,n_train),每一行都包含着相同的训练输出
Y_tile = y_train.repeat((n_train, 1))
# keys的形状:('n_train','n_train'-1)
keys = X_tile[(1 - torch.eye(n_train)).type(torch.bool)].reshape((n_train, -1))
# values的形状:('n_train','n_train'-1)
values = Y_tile[(1 - torch.eye(n_train)).type(torch.bool)].reshape((n_train, -1))

7.训练

net = NWKernelRegression()
loss = nn.MSELoss(reduction='none')
trainer = torch.optim.SGD(net.parameters(), lr=0.5)
animator = d2l.Animator(xlabel='epoch', ylabel='loss', xlim=[1, 5])

for epoch in range(5):
    trainer.zero_grad()
    l = loss(net(x_train, keys, values), y_train)
    l.sum().backward()
    trainer.step()
    print(f'epoch {epoch + 1}, loss {float(l.sum()):.6f}')
    animator.add(epoch + 1, float(l.sum()))

8.最后结果

# keys的形状:(n_test,n_train),每一行包含着相同的训练输入(例如,相同的键)
keys = x_train.repeat((n_test, 1))
# value的形状:(n_test,n_train)
values = y_train.repeat((n_test, 1))
y_hat = net(x_test, keys, values).unsqueeze(1).detach()
plot_kernel_reg(y_hat)

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值