目录
1. Introduction
- 使用掩码(mask)来形成注意力机制。掩码的原理在于通过另一层新的权重。
- 分为强注意力和弱注意力
- Y=Mutltihead(Q, K, V),Y表示注意力结果,Q为Query,K为key,V为Value,任务可以描述为,以Q的方法,在K中找到对应的V。
2. 注意力机制-LSTM走一走
建一个myLSTM网络结构,在模型中搭建LSTM层和全连接层
2.1 依照之前的,做一个fashion-mnist集
import torchvision
import torchvision.transforms as tranforms
data_dir = './fashion_mnist/'
tranform = tranforms.Compose([tranforms.ToTensor()])
train_dataset = torchvision.datasets.FashionMNIST(data_dir, train=True, transform=tranform,download=False)
print("训练数据集条数",len(train_dataset))
val_dataset = torchvision.datasets.FashionMNIST(root=data_dir, train=False, transform=tranform)
print("测试数据集条数",len(val_dataset))
import pylab
im = train_dataset[0][0]
im = im.reshape(-1,28)
pylab.imshow(im)
pylab.show()
print("该图片的标签为:",train_dataset[0][1])
############数据集的制作
import torch
batch_size = 10
train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
test_loader = torch.utils.data.DataLoader(val_dataset, batch_size=batch_size, shuffle=False)
from matplotlib import pyplot