大厂上来就手撕 Transformer，心凉了一半。。。

最新推荐文章于 2024-09-11 17:02:51 发布

机器学习社区

最新推荐文章于 2024-09-11 17:02:51 发布

阅读量868

点赞数 18

分类专栏：大模型文章标签： transformer 深度学习人工智能多模态大模型大模型面试题

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_59596990/article/details/141096786

版权

大模型专栏收录该内容

200 篇文章 117 订阅

订阅专栏

最近这一两周看到不少互联网公司都已经开始秋招提前批了。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。

最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。

《AIGC 面试宝典》圈粉无数！
《大模型面试宝典》(2024版) 发布！

喜欢本文记得收藏、关注、点赞。更多实战和面试交流，欢迎交流

我们星球一球友跟我微信聊天，说最近去一家大厂面试，上来就手撕 Transformer，费了九牛二虎之力，心情凉一半。。。

这两年，特别是大模型出来后，关于 Transformer 的面试题很多，也特别新。

今天我分享18道 Transformer 高频面试题，希望对你有所帮助。

位置编码有哪些？
ViT为什么要分patch？
介绍Transformer和ViT
介绍Transformer的Q,K,V
介绍Layer Normalization
Transformer训练和部署技巧
介绍自注意力机制和数学公式
画图说明 Transformer 基本流程
介绍Transformer的Encoder模块
介绍Transformer的Decoder模块
Transformer和Mamba（SSM）的区别
Transformer中的残差结构以及意义
为什么Transformer适合多模态任务？
Transformer的并行化体现在哪个地方？
为什么Transformer一般使用LayerNorm？
Transformer为什么使用多头注意力机制？
Transformer训练的Dropout是如何设定的？
Transformer 模型中的自注意力机制是如何工作的？

技术交流

在这里插入图片描述

用通俗易懂的方式讲解系列

机器学习社区

关注

18
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。