《动手学习深度学习》之二：3.Transformer模型（打卡2.3）

最新推荐文章于 2024-05-16 20:45:19 发布

氟西汀重度患者

最新推荐文章于 2024-05-16 20:45:19 发布

阅读量558

点赞数

文章标签：深度学习 python 循环神经网络

本文链接：https://blog.csdn.net/Eric___Young/article/details/104379326

版权

Transformer模型结合了CNN和RNN的优点，通过注意力机制实现了并行处理序列依赖，克服了CNN和RNN的局限。其架构包括多头注意力层、位置编码和前馈神经网络，确保高效捕获序列信息。Transformer在编码器和解码器中应用了这些组件，以处理翻译和其他序列到序列任务。

摘要由CSDN通过智能技术生成

3.Transformer模型

3.1.CNN与RNN的缺点：

1.CNNs 易于并行化，却不适合捕捉变长序列内的依赖关系。
2.RNNs 适合捕捉长距离变长序列的依赖，但是却难以实现并行化处理序列

3.2.为了整合CNN和RNN的优势，创新性地使用注意力机制设计了Transformer模型

3.2.1.该模型利用attention机制实现了并行化捕捉序列依赖，并且同时处理序列的每个位置的tokens，上述优势使得Transformer模型在性能优异的同时大大减少了训练时间。

3.3.Transformer模型的架构

3.3.1.与seq2seq模型相似，Transformer同样基于编码器-解码器架构，其区别主要在于以下三点：
Transformer blocks：将seq2seq模型重的循环网络替换为了Transformer Blocks，该模块包含一个多头注意力层（Multi-head Attention Layers）以及两个position-wise feed-forward networks（FFN）。对于解码器来说，另一个多头注意力层被用于接受编码器的隐藏状态。
Add and norm：多头注意力层和前馈网络的输出被送到两个“add and norm”层进行处理，该层包含残差结构以及层归一化。
Position encoding：由于自注意力层并没有区分元素的顺序，所以一个位置编码层被用于向序列元素里添加位置信息。
3.3.2.架构图
Transformer模型的架构

import os
import math
import numpy as np
import torch 
import torch.nn as nn
import torch.nn.functional as F
import sys
sys.path.append('/home/kesci/input/d2len9900')
import d2l

以下是复制了上一小节中 masked softmax 实现，这里就不再赘述了

def SequenceMask(X, X_len,value=-1e6):
    maxlen = X.size(1)
    X_len = X_len.to(X.device)
    #print(X.size(),torch.arange((maxlen),dtype=torch.float)[None, :],'\n',X_len[:, None] )
    mask = torch.arange((maxlen), dtype=torch.float, device=X.device)
    mask = mask[None, :] < X_len[:, None]
    #print(mask)
    X[~mask]=value
    return X

def masked_softmax(X, valid_length):
    # X: 3-D tensor, valid_length: 1-D or 2-D tensor
    softmax = nn.Softmax(dim=-1)
    if valid_length is None:
        return softmax(X)
    else:
        shape = X.shape
        if valid_length.dim() == 1:
            try:
                valid_length = torch.FloatTensor(valid_length.numpy().repeat(shape[1], axis=0))#[2,2,3,3]
            except:
                valid_length = torch.FloatTensor(valid_length.cpu().numpy().repeat(shape[1], axis=0))#[2,2,3,3]
        else:
            valid_length = valid_length.reshape((-1,))
        # fill masked elements with a large negative, whose exp is 0
        X = SequenceMask(X.reshape((-1, shape[-1])), valid_length)
 
        return softmax(X).reshape(shape)

# Save to the d2l package.
class DotProductAttention(nn.Module): 
    def __init__(self, dropout, **kwargs):
        super(DotProductAttention, self).__init__(**kwargs)
        self.dropout = nn.Dropout(dropout)

    # query: (batch_size, #queries, d)
    # key: (batch_size, #kv_pairs, d)
    # value: (batch_size, #kv_pairs, dim_v)
    # valid_length: either (batch_size, ) or (batch_size, xx)
    def forward(self, query, key, value, valid_length=None):
        d = query.shape[-1]
        # set transpose_b=True to swap the last two dimensions of key
        scores = torch.bmm(query, key.transpose(1,2)) / math.sqrt(d)
        attention_weights = self.dropout(masked_softmax(scores, valid_length))
        return torch.bmm(attention_weights, value)

3.3.3.Transformer blocks
多头注意力层
• 自注意力（self-attention）结构
• 自注意力模型是一个正规的注意力模型，序列的每一个元素对应的key，value，query是完全一致的。如图自注意力输出了一个与输入长度相同的表征序列，与循环神经网络相比，自注意力对每个元素输出的计算是并行的，所以我们可以高效的实现这个模块。
自注意力（self-attention）结构
• 多头注意力层包含h个并行的自注意力层，每一个这种层被成为一个head
• 对每个头来说，在进行注意力计算之前，我们会将query、key和value用三个现行层进行映射，这h个注意力头的输出将会被拼接之后输入最后一个线性层进行整合
多头注意力层

class MultiHeadAttention(nn.Module):
    def __init__(self, input_size, hidden_size, num_heads, dropout, **kwargs):
        super(MultiHeadAttention, self).__init__(**kwargs)
        self.num_heads = num_heads
        self.attention = DotProductAttention(dropout)
        self.W_q = nn.Linear(input_size, hidden_size, bias=False)
        self.W_k = nn.Linear(input_size, hidden_size, bias=False)
        self.W_v = nn.Linear(input_size, hidden_size, bias=False)
        self.W_o = nn.Linear(hidden_size, hidden_size, bias=False)
    
    def forward(self, query, key, value, valid_length):
        # query, key, and value shape: (batch_size, seq_len, dim),
        # where seq_len is the length of input sequence
        # valid_length shape is either (batch_size, )
        # or (batch_size, seq_len).

        # Project and transpose query, key, and value from
        # (batch_size, seq_len, hidden_size * num_heads) to
        # (batch_size * num_heads, seq_len, hidden_size).
        
        query = transpose_qkv(self.W_q(query), self.num_heads)
        key = transpose_qkv(self.W_k(key), self.num_heads)
        value = transpose_qkv(self.W_v(value), self.num_heads)
        
        if valid_length is not None:
            # Copy valid_length by num_heads times
            device = valid_length.device
            valid_length = valid_length.cpu().numpy() if valid_length.is_cuda else valid_length.numpy()
            if valid_length.ndim == 1:
                valid_length = torch.FloatTensor(np.tile(valid_length, self.num_heads))
            else:
                valid_length <

最低0.47元/天解锁文章

氟西汀重度患者

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
《动手学习深度学习》之二：3.Transformer模型（打卡2.3）

3.Transformer模型3.1.CNN与RNN的缺点：1.CNNs 易于并行化，却不适合捕捉变长序列内的依赖关系。2.RNNs 适合捕捉长距离变长序列的依赖，但是却难以实现并行化处理序列3.2.为了整合CNN和RNN的优势，创新性地使用注意力机制设计了Transformer模型3.2.1.该模型利用attention机制实现了并行化捕捉序列依赖，并且同时处理序列的每个位置的toke...
复制链接

扫一扫