一、基础概念类
1.Transformer与RNN/CNN的核心差异
- 全局依赖捕捉:自注意力机制无需序列顺序,可并行处理
- 计算效率:并行化设计避免RNN的串行计算瓶颈
- 长距离依赖:通过注意力权重直接关联远距离token,缓解RNN梯度消失问题
2.位置编码的实现方式与选择
- 固定编码(正弦/余弦):无需训练,支持任意长度,但无法处理动态序列
- 可学习编码:通过Embedding层训练,但依赖数据分布
- 相对位置编码:通过差值计算相对位置,增强模型泛化性
二、注意力机制类
3.多头注意力的必要性与数学原理
- 分解特征空间:多个头捕获不同维度的语义关联,类似CNN多卷积核
- 避免对称性问题:Q/K不同权重矩阵防止注意力矩阵对称
4.缩放点积注意力的缩放因子作用
- 防止梯度消失: d k \sqrt{d_k} dk压缩点积值,避免softmax饱和
5.Padding Mask与Causal Mask的实现
- Padding Mask:将无效位置置为-∞,确保softmax忽略填充值
- Causal Mask:限制Decoder仅关注历史token,强制因果关系
三、结构设计类
6.LayerNorm vs BatchNorm的选择依据
- 序列长度不固定:BatchNorm依赖批量统计,而LayerNorm对单样本归一化
- 特征分布稳定:LayerNorm保持序列内部特征分布,适合NLP任务
7.残差连接的作用与数学意义
- 梯度传播:缓解深层网络梯度消失,加速收敛
- 特征复用:多路径信息传递增强模型鲁棒性
8.FeedForward层的参数优化策略
- 分离式前馈:每个位置独立计算,避免参数共享
- 矩阵分解:如低秩近似降低参数量
四、训练优化类
9.Embedding矩阵的初始化技巧
- Xavier初始化乘以 d m o d e l \sqrt{d_{model}} dmodel:稳定方差,加速收敛
10.量化压缩的实现与挑战
- INT8选择:KL散度匹配分布,平衡精度与效率
- 长尾分布处理:针对性调整量化阈值
11.小样本训练的改进方案
- 混合专家(MoE):稀疏激活减少计算量
- 元学习:共享底层特征,快速适应小样本
五、扩展应用类
12.BERT的MLM与NSP任务缺陷
- MLM导致预训练/微调输入差异,NSP语义关联弱
- 改进方案:ALBERT的SOP任务增强句子对关系
13.视觉Transformer(ViT)的关键差异
- 输入嵌入:图像分块(Patch Embedding)替代词向量
- 归纳偏置:CNN的局部性 vs Transformer全局性
六、数学与工程细节
14.自注意力的计算复杂度优化
- 线性注意力:通过核函数近似降低复杂度至O(n)
- 局部注意力:限制窗口大小,平衡效率与效果
15.Transformer的计算瓶颈分析
- 多头注意力:
O
(
n
2
d
k
)
O(n^2d_k)
O(n2dk),占总计算量70%以上