Transformer高频面试题

一、基础概念类
1.Transformer与RNN/CNN的核心差异

  • 全局依赖捕捉:自注意力机制无需序列顺序,可并行处理
  • 计算效率:并行化设计避免RNN的串行计算瓶颈
  • 长距离依赖:通过注意力权重直接关联远距离token,缓解RNN梯度消失问题

2.位置编码的实现方式与选择

  • 固定编码(正弦/余弦):无需训练,支持任意长度,但无法处理动态序列
  • 可学习编码:通过Embedding层训练,但依赖数据分布
  • 相对位置编码:通过差值计算相对位置,增强模型泛化性

二、注意力机制类
3.多头注意力的必要性与数学原理

  • 分解特征空间:多个头捕获不同维度的语义关联,类似CNN多卷积核
  • 避免对称性问题:Q/K不同权重矩阵防止注意力矩阵对称

4.缩放点积注意力的缩放因子作用

  • 防止梯度消失: d k \sqrt{d_k} dk 压缩点积值,避免softmax饱和

5.Padding Mask与Causal Mask的实现

  • Padding Mask:将无效位置置为-∞,确保softmax忽略填充值
  • Causal Mask:限制Decoder仅关注历史token,强制因果关系

三、结构设计类
6.LayerNorm vs BatchNorm的选择依据

  • 序列长度不固定:BatchNorm依赖批量统计,而LayerNorm对单样本归一化
  • 特征分布稳定:LayerNorm保持序列内部特征分布,适合NLP任务

7.残差连接的作用与数学意义

  • 梯度传播:缓解深层网络梯度消失,加速收敛
  • 特征复用:多路径信息传递增强模型鲁棒性

8.FeedForward层的参数优化策略

  • 分离式前馈:每个位置独立计算,避免参数共享
  • 矩阵分解:如低秩近似降低参数量

四、训练优化类
9.Embedding矩阵的初始化技巧

  • Xavier初始化乘以 d m o d e l \sqrt{d_{model}} dmodel :稳定方差,加速收敛

10.量化压缩的实现与挑战
- INT8选择:KL散度匹配分布,平衡精度与效率
- 长尾分布处理:针对性调整量化阈值

11.小样本训练的改进方案
- 混合专家(MoE):稀疏激活减少计算量
- 元学习:共享底层特征,快速适应小样本


五、扩展应用类
12.BERT的MLM与NSP任务缺陷
- MLM导致预训练/微调输入差异,NSP语义关联弱
- 改进方案:ALBERT的SOP任务增强句子对关系

13.视觉Transformer(ViT)的关键差异
- 输入嵌入:图像分块(Patch Embedding)替代词向量
- 归纳偏置:CNN的局部性 vs Transformer全局性


六、数学与工程细节
14.自注意力的计算复杂度优化
- 线性注意力:通过核函数近似降低复杂度至O(n)
- 局部注意力:限制窗口大小,平衡效率与效果

15.Transformer的计算瓶颈分析
- 多头注意力: O ( n 2 d k ) O(n^2d_k) O(n2dk),占总计算量70%以上

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值