【LLM学习之路】9月25日26日27日第十二、十三、十四天 Transformer Encoder

最新推荐文章于 2024-11-10 14:10:27 发布

想进大厂的Leo

最新推荐文章于 2024-11-10 14:10:27 发布

阅读量922

点赞数 23

文章标签：学习 transformer 深度学习

本文链接：https://blog.csdn.net/u014448315/article/details/142599615

版权

【LLM学习之路】9月25日26日27日第十二、十三、十四天 Transformer Encoder

Encoder 负责将输入的词语序列转换为词向量序列，Decoder 则基于 Encoder 的隐状态来迭代地生成词语序列作为输出，每次生成一个词语。 transformer

王木头

词向量，使用高维向量的码

如何得到高维向量的码？

tokenizer标记器和独热编码

标记器是给每一个不同的token分配一个独立的id，相当于把所有token投射在一维的数轴上

信息过于密集，很难体现词之间的关系

独热编码，有多少词就有多少维度，信息过于稀疏，信息都是正交的，很难体现出词与词之间的联系

升维降维的例子

做中英文翻译的时候，把中英文的内容都升维到一个连续的浅空间

Word2Vec

别的模型是为了完成某个任务，比如识别猫和狗。Word2Vec是为了得到嵌入矩阵，目标不是得到模型的结果，而是模型的参数，得到Token投射到嵌入空间的方法。

编码和解码的原理

输入一个token编码成词向量，词向量又可以解码变成token

CBOW

有5个（奇数个）词向量，扣去中间那个词向量，剩下的词向量与同一个嵌入矩阵相乘，变成浅空间的词向量，再把4个向量加在一起变成一个向量，再对这个和向量进行解码，损失函数就会定量去看解码的token和挖掉的token是不是一样的，如果是一样的就不需要修改参数。（类比力的合成和分解）

skip-gram

把CBOW的原理反过来，已知一个token，求出上下文token的分量

Transformer代码

The Feed-Forward Layer

它单独地处理序列中的每一个词向量,常见做法是让第一层的维度是词向量大小的 4 倍，然后以 GELU 作为激活函数。

class FeedForward(nn.Module):
    def __init__(self, config):
        super().__init__()
        self.linear_1 = nn.Linear(config.hidden_size, config.intermediate_size)
        self.linear_2 = nn.Linear(config.intermediate_size, config.hidden_size)
        self.gelu = nn.GELU()
        self.dropout = nn.Dropout(config.hidden_dropout_prob)

    def forward(self, x):
        x = self.linear_1(x)
        x = self.gelu(x)
        x = self.linear_2(x)
        x = self.dropout(x)
        return x

在 Transformer 中，前馈子层的基本流程如下：

输入经过第一层线性变换：将输入从 hidden_size 映射到 intermediate_size，通常 intermediate_size 比 hidden_size 大得多（例如，BERT 中常用 intermediate_size 是 hidden_size 的 4 倍）。
激活函数：一般使用 GELU 或 ReLU 来引入非线性。
第二层线性变换：将经过激活的输出重新映射回 hidden_size，以保证输入输出维度一致。
Dropout：用于正则化，防止模型过拟合。