说说transformer当中的维度变化

本文详细探讨了Transformer模型在机器翻译任务中的维度变化过程,从输入的词向量到输出的概率分布。内容涵盖input Embedding、positional encoding、multi head self-attention、残差连接和层归一化等关键步骤,解释了如何通过注意力机制捕捉句子中的多种语义关系,并在decoder中进行解码和预测。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

例如我们要进行机器翻译任务法语–英语,输入一种法语,经过 Transformer,会输出另英语。Transformer 有 6 个编码器叠加和 6 个解码器组成,在结构上都是相同的,但它们不共享权重。拿出经典的图,我将从encoder一步一步走,再到decoder一步一步走到output probabilities。
在这里插入图片描述
1、输入的是批量(batch_size)含有许多句子,最长为max_seq_length,不足的会padding 0。向量维度(batch_size * max_seq_length)
2、经过input_Embedding,查询词库表(vocab_size * embedding_size)查询得到字的词向量。
向量维度(batch_size * max_seq_length * embedding_size)
3、经过positional encoding,用不同频率的sine和cosine函数直接计算,将encoding后的数据与embedding数据求和,加入了相对位置信息(由于模型输入句子的所有word是同时处理的,但是每个字在句子中的位置具有重要意义,RNN具有天然的顺序,所以需要提供位置信息)。PE为二维矩阵,大小为(max_seq_length * embedding_size),pos 表示字在句子中的位置;dmodeld表示词向量的维度;i表示词向量的位置。因此,公式表示在每个词语的词向量的偶数位置添加si

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值