transformer复现

最新推荐文章于 2023-09-13 16:43:03 发布

龙仔941

最新推荐文章于 2023-09-13 16:43:03 发布

阅读量707

点赞数

分类专栏： python NLP 文章标签：自然语言处理

本文链接：https://blog.csdn.net/qq_34146899/article/details/106981180

版权

本文详细介绍了Transformer模型的实现过程，包括原始embedding与position-embedding的结合，multihead-attention的计算步骤，如如何进行split、concat、mask操作，以及scaled-dot-product和softmax的运用。同时，讲解了feedforward层的结构，以及self-attention和qkv的关系。还讨论了在处理序列时如何使用mask避免pad-token的影响，并通过softmax确保注意力权重的合理性。

摘要由CSDN通过智能技术生成

"""
原始 embedding，添加 position-embedding，
multihead-attention： embedding->ff(q,k,v)-->split+concat-->mask--> attention-->scaled-dot-product-->softmax(qk)--> softmax(qk)*value-->residual,input+output-->layer-normalization
feadworad: fc+relu+fc -->residual,input+output-->layer-normalization

应用： ff组合，
residual+ln，进行layer 归一化
dot-product 后的根据维度 scale
qkv 是 attention， qkv 相同，则是 self-attention
qk-mask，得到的是二维矩阵，是token【i】和token{0,1,2,...k}的关系映射
mask掉 pad-token，使得最后 attention*embedding得到的 token-embedding 不受影响
softmax ，特别小的数，使得不受pad部分影响
"""



def load_vocab(vocab_fpath):
    '''Loads vocabulary file and returns idx<->token maps
    vocab_fpath: string. vocabulary file path.
    Note that these are reserved
    0: <pad>, 1: <unk>, 2: <s>, 3: </s>

    Returns
    two dictionaries.
    '''
    vocab = [line.split()[0] for line in open(vocab_fpath, 'r').read().splitlines()]
    token2idx = {token: idx for idx, token in enumerate(vocab)}
    idx2token = {idx: token for idx, token in enumerate(vocab)}
    return token2idx, idx2token

import tensorflow as tf
import numpy as np



def get_token_embeddings(vocab_size, num_units, zero_pad=True):
    '''Constr

最低0.47元/天解锁文章

龙仔941

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录