Transformer相关

说一下Transformer:

Transformer是由encoder模块各decoder模块构成的,这两个模块都是由6各相同的子模块组成。
1.它的encoder模块首先是embedding层,然后是基于三角函数的绝对位置编码
2.接下来进入第一个子模块,首先是多头自注意力机制,Transformer将512维的embedding转换成8*64的embedding,通过计算各单词之间的注意力权重加权生成新的向量表示,然后进行残差连接和层归一化操作,接下来将embeding送入前馈神经网络层,最后将embedding再进行残差连接和层归一化操作,送入到第二个相同的子模块。
3.decoder模块中是掩码自注意力机制,在交互时,由当前时刻输入的embedding提供query向量,由encoder提供key,value向量,通过cross attention操作得到当前单词的上下文表示。

self-attention计算过程:

1.将单词转化成embedding向量
2.将各单词的embedding向量通过不同的线性变换生成query,key,value向量
3.通过self-attention公式计算各单词之间的注意力权重,然后加权各单词的embedding向量

解释self-attention公式:

s o f t m a x ( q u e r y ∗

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
1. 增加注意力机制:在原有的transformer模型基础上,增加注意力机制,使得模型更加关注输入序列中的关键信息,从而提高模型的准确性和性能。 2. 加入半监督学习方法:半监督学习是指在有标注数据的情况下,利用未标注数据进行训练。在transformer中,可以利用未标注的数据来训练模型,从而提高模型的泛化能力和性能。 3. 多任务学习:多任务学习是指在一个模型中同时解决多个任务。在transformer中,可以将不同的任务整合到一个模型中,从而提高模型的效率和准确性。 4. 增加深度:增加transformer的深度可以提高模型的性能和泛化能力。但是,增加深度也会增加计算复杂度和训练难度。 5. 使用新的激活函数:transformer中使用的激活函数是ReLU,但是近年来出现了一些新的激活函数,如Swish和Mish等,这些激活函数在某些任务上表现更好,可以考虑在transformer中使用。 6. 使用更好的优化器:优化器是训练神经网络中非常重要的组成部分。在transformer中,可以尝试使用一些新的优化器,如AdamW和RAdam等,从而提高模型的训练效率和性能。 7. 加入残差连接:残差连接是指将输入和输出直接相加,从而使得模型更容易学习到残差信息。在transformer中,加入残差连接可以提高模型的性能和泛化能力。 8. 增加正则化:正则化是指在训练模型时对模型参数进行约束,从而避免过拟合。在transformer中,可以加入一些正则化方法,如L1和L2正则化,从而提高模型的泛化能力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

石头猿rock

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值