Transformer手撕BP，当场拿了offer

最新推荐文章于 2024-10-08 09:58:34 发布

计算机视觉研究院

最新推荐文章于 2024-10-08 09:58:34 发布

阅读量95

点赞数

文章标签： transformer 深度学习人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzU0NTAyNTQ1OQ==&mid=2247535920&idx=2&sn=fbf6fe7d73fbcf568fe057e31a67a3b6&chksm=fa9f0a1285fd5ffbb63304aab3641fbd63eeea4d846a9d7fba6b611ef7a56214fba109cbf992&scene=126&sessionid=0

版权

最近面试大厂算法&开发岗，不仅让手写Transformer代码，甚至手撕BP算法，面试八股也是标配，总结了一下面试官必问的10个问题：

解释多头注意力机制；简述常见注意力机制；介绍Transformer的QKV；Transformer位置编码的优缺点；详述Encoder及Decoder模块；Transformer残差结构及意义；解释Transformer并行性；Transformer与CNN/RNN/LSTM的区别；详述ViT等CV方向的应用；Transformer与Mamba的区别。

从Transformer的模型架构，到近年数篇里程碑式论文，为了帮助大家掌握面试重点，研梦非凡特邀请了世界Top10高校博士，发表过10+篇顶会的杨导师，独家开讲《求职充电季—Transformer系列论文课程》，以Transformer为主线，全面介绍注意力机制在NLP、CV等研究领域的发展历程，9节论文精讲直播课，带大家吃透9个面试必问模型，校招社招狂接offer！

618活动现仅需 9.9元

👇🏻 扫码加助教下单立享福利价！

免费领取原创课件、9节课程论文&源码+百篇Transformer论文&书籍+文末更多科研福利

一、课程收获

✨ 9篇Transformer必读论文get！代码复现能力up！

全面掌握Attention机制在NLP、CV等研究领域的发展历程
深入理解Transformer于不同模态中的具体应用，盘点9个必备模型代码+复现过程
了解多个研究领域的最新技术，对比分析各模态中的优劣及前景
掌握面试常见Transformer考点，助力大厂校招社招

二、课程大纲

🔸第1课 Attention Is All You Need

Transformer模型必学开山之作！

直播预告：

Transformer模型的基本结构、组成及关键组件（面试必问！）
对比RNN和Transformer在处理序列数据时的不同策略
自注意力机制如何捕捉序列内部的长距离依赖关系、如何实现并行计算
Transformer在机器翻译、文本摘要等任务中的应用案例

🔸第2课 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding（包括代码复现）

基于Transformer架构预训练技术Google开发的革命性NLP模型

直播预告：

BERT模型在NLP任务中的革命性影响、创新点讲解、预训练目标和训练策略
MLM任务、NSP任务如何帮助模型捕捉语言的复杂性
解释Transformer的编码器结构，讨论多头注意力机制在BERT中的应用（面试必问！）
讨论RoBERTa、ALBERT等变体对BERT模型的改进和优化（涨点必学！）

🔸第3课 (ViT) An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale（包括代码复现）

必学——实现了Transformer在计算机视觉中的首次应用！

直播预告：

学习ViT模型在图像识别任务中的创新点、影响及基本结构
ViT模型的动机和目标，对比ViT与CNN在图像处理上的差异
patches如何被编码成序列以适应Transformer模型
讨论多头自注意力机制在ViT中的应用（面试必问！）
ViT模型的预训练策略，以及在不同规模数据集上的性能表现（涨点必学！）

🔸第4课 Swin Transformer：Hierarchical Vision Transformer using Shifted Windows（包括代码复现）

业界创新——Transformer在高分辨率影像领域的应用！

直播预告：

Swin Transformer移动窗机制处理高分辨率图像的工作原理（魔改第一步！）
分块标准化（Shifted Window）关键技术
Swin Transformer在图像识别任务中的模型优化特征提取能力（笔试考点！）
Swin Transformer模型在多模态任务中的应用前景

🔸第5课 SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers（包括代码复现）

利用TransformerEncoder-Decoder结构，在没有使用任何额外如位置编码或非局部信息的情况下，进行语义分割，并取得突出效果！

直播预告：

Transformer结构对细粒度视觉任务的适应性
SegFormer模型的动机、目标及Encoder-Decoder结构（面试必问！）
SegFormer如何在不同尺度上捕捉特征，其简洁性和效率，以及其对性能的影响
SegFormer的语义分割流程：Transformer应用于语义分割任务流程（手撕考点！）

🔸第6课 ViLT: Vision and Language Transformer Without Convolution or Region Supervision（包括代码复现）

ViLT直接使用序列输入进行多模态融合和理解，省去了特征提取阶段，取得了和CNN相当或更好的效果！

直播预告：

ViLT模型的核心创新、模型结构和关键组件
ViLT处理多模态数据时的有效融合方法
ViLT的效率和效果、性能评估对比（与CNN区别）（面试必问！）
ViLT改进Transformers在不同模态之间的应用工作

🔸第7课 (GPT-4)Toolformer: Language Models Can Teach Themselves to Use Tools（包括代码复现）

Transformer在GPT-4的应用，大语言模型必学！

直播预告：

语言模型在智能助手和自动化任务中的应用、创新之处和研究动机
Toolformer模型的基本结构、工作原理、关键技术，如强化学习、模仿学习等
Toolformer经过训练能够决定调用哪些API、何时调用它们、传递什么参数以及如何最佳将结果合并到未来的token预测中

🔸第8课 Scalable Diffusion Models with Transformers（包括代码复现）

Transformer+扩散模型利用Transformer处理高维度数据，实现了先进的可生成视觉效果！

直播预告：

Transformer在生成扩散模型中的应用及其潜力
Transformer如何适应高维度数据处理
基于Transformer的扩散模型架构，利用Transformer生成高维度的视觉数据（面试必问！）
对比传统扩散模型和基于Transformer的模型性能

🔸第9课 Mamba: Linear-Time Sequence Modeling with Selective State Spaces（惊喜彩蛋！！！后续还会加课哦！）

618活动现仅需 9.9元

👇🏻 扫码加助教下单立享福利价！

三、讲师介绍

杨导师

学术背景 世界Top10大学计算机科学毕业博士。主要研究方向为计算机视觉、自然语言处理、高效的深度学习训练和推理方法、大语言模型轻量化与高效微调技术。曾在多家公司担任算法研究员，涉及计算机视觉、高效模型压缩算法、多模态大语言模型的相关研究，包括模型量化、剪枝、蒸馏、编译、高效稀疏化训练与推理

科研成果 在国际顶级会议CVPR、ICCV、EMNLP等发表10+篇论文，并担任CVPR、ICCV、ECCV、ICML、ICLR、NeurIPS等重要会议和期刊审稿人；拥有多项发明专利，指导学生有耐心，教学严谨，思维逻辑缜密，论文指导经验丰富

招收学生方向 计算机视觉、自然语言处理、高效模型压缩算法、多模态大语言模型，包括模型量化、剪枝、蒸馏、编译、高效稀疏化训练与推理、深度学习全栈研究