超全啊!这是我见过的大模型算法岗(含实习)最走心的总结了!

年底了,技术群组织了一场算法岗技术&面试讨论会,邀请了一些同学分享他们的面试经历,讨论会会定期召开,如果你想加入我们的讨论群或者希望要更详细的资料,文末加入。

喜欢本文记得收藏、关注、点赞。

网易

大模型日常实习就中了,我要去网易做大模型实习生啦。

一面

1.文本生成的几大预训练任务?

2.多模态中常见的sota模型,clip为什么效果好

3.多模态大模型有哪些?介绍一下stable diffusion的原理

4.chatglm的原理,其结构,其训练过程

5.instructGPT的原理,讲讲rlhf和reward

6.手写一个文本生成的生成器

二面

1.讲讲T5和Bart的区别,讲讲bart的DAE任务

2.讲讲Bart和Bert的区别,分析下为什么MLM任务能在预训练任务界占这么重要的地位。

3.讲讲项目中对比学习的应用,解释下什么是曝光偏差

4.对比学习负样本是否重要?负样本构造成本过高应该怎么解决

5.项目中提出的利用对比学习解决曝光偏差问题的想法来源?为什么能想到这么做,这么做带来的收益如何?

6.有没有微调过大模型,介绍一下lora的原理和ptuning的原理

7.讲下自己认为自己做事和学习上的缺点与不足

自我感觉答的不错,面试官在面试过程中频频点头,应该印象不错。面完第二天就收到offer了。

美团

岗位:大模型算法岗(日常实习)

一面

面试官是一名温柔小姐姐吖,下面是面试过程:

1.自我介绍
(让我开一下摄像头)

2.聊聊你自我介绍中提到的自己的论文

3.论文录用概率大吗(论文在投)

4.AI大模型的训练过程

5.大模型的优缺点(以及你自己的角度体验到的)

6.大模型的用户体验感最注重哪几个方面

6-2.你自己使用过程中,大模型你感觉体验感怎么样

7.目前市面上有哪些大模型

8.你的最大优点和缺点

9.你认为这个岗位的职责,以及需要具备哪些能力

10.聊了聊大模型在美团业务中可以用来做什么

11.你用过大模型哪些功能?

12.最快什么时候能入职

我提问:
1.岗位待遇
2.有几面 2,业务面和HR面
3.有转正机会吗

理想

大模型面经

一面

自我介绍,讲一下大模型应用项目(我讲的nl2sql的项目)

项目背景,总体思路,解决什么问题,指标是什么

细节拆分:

1.数据集怎么构建的,什么规模,有没有质量评估

2.模型底座是什么,这些不同底座什么区别,什么规模

3.训练方法,用的什么sft,有什么不同,有什么优缺点,原理上解释不不同方法的差别

4.评估指标是什么,这些指标存在哪些问题

5.模型推理是怎么做的,有没有cot,tot等等,还是单轮

6.模型可控性如何实现,怎么保证可控性

7.模型部署的平台,推理效率怎么样,如何提升推理效率

8.有没有上线,面临什么问题,怎么解决

9.给一个总的输入输出样例,每一步包含什么prompt,多轮推理每一步输出什么结果,模拟一下,数据集格式是否要调整成这样,数据形式是什么,怎么拆分成多轮形式等等。。

到这里项目差不多了大概问了45min

然后是八股+开放式问题
1.大模型前景

2.大模型主要存在的问题和解决思路(幻觉,定向编辑,继续训练等等)

3.大模型加速框架了解多少,知不知道原理 如何进行加速优化

4.为什么要用大模型做传统结构化解析任务 你对用大模型做这些事有什么看法

到这差不多1小时

最后是能不能实习,对最新的研究了解多少,看过多少最新论文等等

我本以为结束了,但是,最后我们来做一道题吧

题我忘了,好像是一个迭代法求根的题,反正当时已经神志不清了,好像没ac

二面

很简单,感觉是部门leader,简单问了问项目,普通八股,大模型上线会有什么问题,占用多少资源,怎么优化等等,比一面简单太多

长亭科技

岗位:大模型

面试官挺和蔼的,整体偏向互相交流学习,没答出来的他还说没关系,这是个不断学习的过程。不是压力面真好!

面试内容偏向八股、基础知识,项目和论文问的少。

自我介绍

介绍Transformer

有哪些encoder-only、decoder-only、encoder-decoder结构

介绍BERT(项目、论文、实习里用的都是bert,没用过其他结构)

我目前的研究基本上用BERT+线性层之类的来做,问我LLM出现后分类任务会被取代吗?

BERT、GPT如何分词,有什么区别

常见的位置编码(讲了正余弦位置、可学习参数矩阵、RoPE)

BERT里的可学习参数矩阵来表示位置编码,对于长文本呢》超过这个长度怎么办?

Attention,为什么有Multi-head,作用是什么。BERT里head数是多少,我说bert-base是12,反问为啥是这个数,是基于啥算法得到的还是经验设计的,我猜测是通过实验观察得到

面试官偏向用GPT系列的decoder结构,对BERT这些记不太清了,所以一直在问这方面的内容,我也表示了确实主要用的还是BERT,但目前的大模型也确实都基于decoder架构来做。

介绍项目的收获与其中的难点。

具体想做算法哪方面,一开始没理解还以为是具体的NLP任务场景,我说都可以做,后来又追问,说是偏数据工程还是模型设计还是模型训练,我脑子一抽说了模型设计,面试官反问说模型设计现在基本上没什么可以改进的了,LLM都基本用decoder结构,然后我说这仨我都可以接受,主要是确实都能做啊,也没啥特别喜爱的QAQ
反问,主要业务场景(安全领域的大模型)、需要具备的技能(追踪最新的SOTA、读paper、理解能力、持续学习能力、动手能力、思考能力)

总体来说 还是一场体验感不错的面试,也没有任何刁难,不会的问题面试官也一直说没关系。像是互相在探讨学习的一个过程~

淘天

大模型(日常实习)

  1. llama 7b 为什么比其他基座好,与gpt3比做了什么改进:数据上质量更高,结构上用的RoPE+SwiGLUE

  2. GQA可以给训练加速吗:不可以,

  3. 检索增强怎么做的:

  4. 长度外推除了ROPE还有什么方法(长度外推一个是训练时数据没那么长导致的一些问题,一个是计算复杂度太高没那么多资源):局部注意力(平移不变性,感受野,window),插值,flashattetion, GQA

  5. Baichuan和chatglm2有什么不同,数据上,训练上,结构上

  6. Visualglm图片怎么处理的:blip-qformer

  7. Transformer结构,一层层讲

  8. Visualbert什么结构:前text后visual,用faster-cnn和resnet-50提取视觉特征

  9. RLHF流程:一个actor,一个critic,一个reward model。将sft后的模型输出后生成回答,回答+答案输入RW得到分数(取最后一个token投影一下)

  10. Reward model怎么训练的,损失函数是什么:

  11. 提示工程的fewshot有什么做法:聚类

  12. Chatglm2与1有什么区别:prefix-decoder回归casual-decoder(原因1.多轮对话用prefix-decoder需要构造多个数据来训练,而casual可以直接用整个多轮对话数据,等效,且各个对话的权重不一样)(这个改动导致了2维编码的去除);gelu->swiglu;RMSnorm;flashattention;MQA

  13. Chatglm2对话权重不一样的原因:

  14. 为什么chatglm系列的用ptuning比lora好:都是清华一个实验室出的,配套效果吧

  15. Ptuning是怎么样做的大概讲讲:前面cocat可学习参数,多了一个MLP层,代码中在k,v矩阵中concat矩阵参数

  16. Lora怎么做的?为什么只调q,v矩阵或者q矩阵?别人实验这样做不代表在你这个场景下这样做就是对的?

  17. 为什么模型都聚焦于decoder-only而不是encoder-only或者encoder-decoder:

  18. Self-consistency是什么

太初

大模型算法

面试内容:

  • 自我介绍
  • 实习内容介绍
  • 数据并行
  • ft框架
  • 随机森林
  • gbdt
  • 优化器了解哪些
  • bert和gpt
  • transformer结构
  • 线上服务推理如何提高吞吐量
  • 手撕:链表加法

技术交流群

前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~

我们建了NLP&大模型面试与技术交流群, 想要进交流群、需要源码&资料、提升技术的同学,可以直接加微信号:mlc2060。加的时候备注一下:研究方向 +学校/公司+CSDN,即可。然后就可以拉你进群了。

方式①、微信搜索公众号:机器学习社区,后台回复:加群
方式②、添加微信号:mlc2060,备注:技术交流

用通俗易懂方式讲解系列

  • 23
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,基于扩散模型的图像超分辨算法可以分为以下几个步骤: 1. 图像预处理:将原始图像进行去噪、去模糊等预处理操作,以提高算法的效果。 2. 图像分割:将图像分割成不同的小块,方便后续处理。 3. 扩散模型:通过扩散模型对每个小块进行处理,以实现图像超分辨。 4. 重构图像:将处理后的每个小块进行合并,以重构超分辨图像。 具体实现过程如下: 1. 图像预处理:采用图像去噪算法(如NL-means算法)、图像去模糊算法(如基于深度学习的图像去模糊算法)等对原始图像进行预处理,以提高算法的效果。 2. 图像分割:将预处理后的图像分割成不同的小块,每个小块的大小为n×n。 3. 扩散模型:对于每个小块,采用扩散模型进行处理。具体实现过程如下: a) 建立扩散模型:扩散模型是一种基于偏微分方程的图像处理方法,可以有效地实现图像的平滑和增强。根据图像的特点,建立适合的扩散模型。 b) 模型求解:对于每个小块,采用数值方法求解扩散模型,得到处理后的小块。 4. 重构图像:将处理后的每个小块进行合并,以重构超分辨图像。具体实现过程如下: a) 重组每个小块:将处理后的每个小块按照原始图像的排列方式,进行重组。 b) 重叠区域处理:由于相邻小块之间存在重叠区域,因此需要对重叠区域进行处理。可以采用加权平均法、插值法等对重叠区域进行处理。 c) 合并小块:将处理后的每个小块合并,得到重构后的超分辨图像。 以上就是一份基于扩散模型的图像超分辨算法的实现过程。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值