我算是见识到算法岗transformer面试的难度

最新推荐文章于 2024-10-11 23:09:56 发布

脱泥不tony

最新推荐文章于 2024-10-11 23:09:56 发布

阅读量570

点赞数 11

文章标签： transformer 面试深度学习语言模型大语言模型算法大模型面试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_85378759/article/details/142092061

版权

如果你的transformer面试达到这种水平，不得成了offer收割机
在这里插入图片描述

1.简单讲一下Transformer中的残差结构以及意义。

2.为什么transformer块使用LayerNorm而不是BatchNorm?LayerNorm在Transformer的位置是哪里?
3.简答讲一下BatchNorm技术，以及它的优缺点。

4.简单描述一下Transformer中的前馈神经网络?使用了
什么激活函数?相关优缺点?
5.Encoder端和Decoder端是如何进行交互的?(在这里可以问一下关于seq2seg的attention知识)

6.Decoder阶段的多头自注意力和encoder的多头自注意力有什么区别?(为什么需要decoder自注意力需要进行sequence mask)
7.Transformer的并行化提现在哪个地方?Decoder端可以做并行化吗?
8.简单描述一下wordpiece model和byte pairencoding，有实际应用过吗?
9.Transformer训练的时候学习率是如何设定的?Dropout是如何设定的，位置在哪里?Dropout在测试的需要有什么需要注意的吗?

10.引申一个关于bert问题，bert的mask为何不学习transformer在attention处进行屏蔽score的技巧?

在这里插入图片描述

这份《92份面试真题详解》已经上传CSDN，还有完整版的大模型 AI 学习资料，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

PDF书籍： 完整版本链接获取

👉[CSDN大礼包🎁：《92份面试真题详解》免费分享（安全链接，放心点击）]👈

关注

11
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。