transformer八股文知识点整理

- 请你介绍一下Transformer模型;

Transformer 结构是一种完全采用注意力或自注意力机制的深度学习模型,可以并行训练 avoid recursion in order to allow parallel computation (to reduce training time)

由 encoder 和 decoder 组成,分别各自有6个相同的层堆叠而成;

- encoder 每个layer 有 2个 sub-layer 组成,分别是

- 多头注意力 multi-head self-attention

- 前馈神经网络并且加了 residual connection 和 layer norm。

- decoder 的每一层是

- 首先用masked multi-head self-attention,

- 再加上和 encoder 做了cross-attention

- 再用前馈神经网络并且加了 residual connection 和 layer norm

---

- Transformer 相对于传统的 RNN 网络有什么好处;

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Transformer是一种用于处理序列数据的神经网络模型。它在自然语言处理和计算机视觉领域都有广泛的应用。Transformer的设计中有一些常见的要素和技术,被称为"Transformer八股文"。以下是其中的几个要素和技术: 1. 全局自注意力(Global Self-Attention): Transformer中的自注意力机制允许每个词向量与其他词向量进行交互,以捕捉长距离依赖关系。然而,这种计算成本非常高,因为需要对整个输入序列进行计算。为了解决这个问题,可以采用局部自注意力(Local Self-Attention),它限制了每个词向量的交互域,从而降低了计算成本。 2. 反卷积(Deconvolution):反卷积是一种用于上采样或增加特征图尺寸的操作。在全卷积网络(Fully Convolutional Network)中,反卷积被用于将低分辨率的特征图恢复到原始输入的尺寸。另外,反卷积也常用于图像分割和图像生成等任务中。 3. Layer Norm:Layer Norm是一种归一化技术,用于在Transformer中对每个层的输入进行归一化。它的位置在多头注意力层和激活函数层之间。在计算机视觉领域,常使用批归一化(Batch Normalization),因为通道维度的信息对计算机视觉任务有重要意义。而在自然语言处理领域,由于句子长度不一致且各个批次的句子之间没有关系,所以只考虑句子内部的归一化,即Layer Norm。Layer Norm的目的是解决梯度消失的问题。 4. Dropout:Dropout是一种正则化技术,用于减少神经网络的过拟合现象。在Transformer中,Dropout被应用于隐藏层,其目的是随机地将一些神经元的输出置为零,从而减少神经元之间的依赖关系,提高模型的鲁棒性。 总结起来,Transformer八股文涉及到全局自注意力、反卷积、Layer Norm和Dropout等技术,它们在Transformer的设计中起到了关键的作用。这些技术帮助提高了模型的性能,并广泛应用于自然语言处理和计算机视觉领域的各种任务中。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [CSWin Transformer](https://download.csdn.net/download/qq_36758270/88233972)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* *3* [深度学习八股文](https://blog.csdn.net/weixin_42693876/article/details/120345924)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值