前言
面试情况:投过的公司:淘天,字节,蚂蚁,商汤,美团,夸克,腾讯,minimax,零一万物,阿里控股,潞晨科技,阿里巴巴国际,网易实验室,Momenta。Offer:淘天,字节AML,商汤,蚂蚁,美团,夸克,腾讯混元,天翼云。
面经:
淘天【offer】:部门:未来生活实验室。
介绍:
淘天集团的大模型研究将主要围绕两个场景展开:一是搜广推,二是逛逛的内容化。团队组建工作由淘天集团CEO戴珊、淘天集团CTO若海、阿里妈妈CTO郑波等人共同牵头。
一面:
- 如何训练ocr任务
- 实验的setting,
- ocr任务影响如何
- 高分辨率训练,再在小分辨率上,会不会崩掉
- 输出bbox有没有好的方式
HR面:
- 基本信息确认:
- 考研进入电子科技大,为什么
- 为什么进入了诺亚
- 代表性的工作
- 如何解决问题的,国内在做语言大模型的多一些。
- 国内在做多模态大模型的
- 如何评测,评估这些大模型的。如何看待刷榜的问题。
- 你们的衡量指标
面试体验:
面试体验很好。HR也没有那么咄咄逼人。阿里味不是特别明显。最终权衡也选择来了淘天。
字节AML【offer】:
部门:AML火山方舟大模型
介绍:淘天集团的大模型研究将主要围绕两个场景展开:一是搜广推,二是逛逛的内容化。团队组建工作由淘天集团CEO戴珊、淘天集团CTO若海、阿里妈妈CTO郑波等人共同牵头。
预备面经:
猎头也提供了一些其他候选人的面经, 整理如下:
- 设计一个Hash表
- 蓄水池问题
- 从超大文本文件中随机行采样
- 二叉搜索树-去掉超出[m, n]范围内的节点
- 计算交叉熵
- 计算IOU
一面:
- 多模态你们的流程
- 你们的OCR的结构
- layernorm的区别
二面:
- 什么时间开始做多模态模型
- 目前在文档
- Token长度太大。高分辨率如何解决。
- patch能不能变得
- VQGAN
- GPT4V的结构形式。
- LLM decoder
- MagViT
- LLM的基础知识需要尽快补上
三面:
- 自我介绍
- 多模态大模型用哪个模型
- Transformer比较熟悉
- python实现self attention和Transformer
面试体验:
字节一如既往的注重coding,基本每一面两道题,自己能拿到offer也算是运气吧。一面的面试体验很差,可以说是毫无面试经验的面试官。
商汤【offer】:
一面:
- 简单的自我介绍
- 关于高分辨率的解决办法
- OCR是如何去做的,有没有grounding,Referring。
- GPT4V 位置,检测明显的问题。
- 你们是如何解决位置信息的。
- 新的模态,进来。如何去拼接过来。
- 新来一批数据,如何训练。
- tree1是否是tree2的子树。
二面:
- AGI缺不了视觉。
- 工业场景,人的检测,奇怪的零件,机器的检测。检测的结果,需要理解人的行为。理解和context的关系。人和环境的关系。借助多模态来解决。
- 自驾,感知端,到决策端,感知不需要全面的感知,着重额感知需要。
- 假新闻,图是真的。caption场景。
- OCR,街景的OCR,文档,网页截图等是不同的,这些场景混在一起。会有影响吗。
- OCR的方案,一般是先出检测框,再出文本。不规则的文本,如何解决。 多模态大模型的OCR。
- Qwen-VL的文本检测形似,是否合理。 模型本身的三种能力:
- 自己的能力,认识什么。
- LISA:借助decoder来做,用新的prompt来实现分割。
- 外挂RAG等。 判断左右括号(),等组成的字符串是否是合法的。
二面结束,问题不大。
三面:
Leader面,聊了一些有的没的
面试体验:
面试过程很专业,毕竟是商汤,算法技术是国内领先的,奈何没产品,而且薪资包也没有诚意。
蚂蚁风控大模型【offer】:
一面:
- 自我介绍
- 介绍Focus-DETR,有没有在业务中应用。
二面:
- 介绍
- 目前在做的事情
- 下游的任务,文档场景,再做一个什么任务。
- ocr数据是如何生成的。
- 效果如何。
- 如何解决幻觉的问题。
HR面。
- 具体的工作内容,印象
- 安全内容,tob的内容审核。竞对。
- 个人介绍。
- 上海海思,为什么跳槽
- 算法支撑
MiniMax:【挂】
一面:
- 空间感知能力是如何解决的
- 不同token长度是否有做balance的方式
- 很多有价值的问题。
- python实现标题 MLP Regressor 题目描述 题目描述与要求:实现一个MLP regressor 的完整训练过程,包括:forward , backward , SGD更新参数;验证backward梯度正确性;构建数据,验证端到端正确性 (收敛&泛化);(optional) 参考你过往的实验经验,尽可能让功能更完善;不使用第三方库中已实现好的自动求导方法;P.S. 实现方法不限,但由于在线IDE运行环境不稳定,推荐使用numpy。
PS:
面试官对算法底层了解比较深入,比较考验代码能力,不是字节那种。
零一万物【挂】:
一面:
- 多模态的情况。
- document的难度。
- 手写 self attention
二面:
- 自我介绍
- 传统的OCR模型和多模态大模型的区别
- 带不带OCR,多模态文档智能差多少。
- 未来OCR模型是否会被大模型吃掉。
- OCR大模型有什么是做不了的。
- 在哪些模型上做过一些预训练。
- 多模态未来怎么做。
- EVA的有趣的现象。没有出现涌现的现象。
- 后面的工作主要集中在哪里。
- 怎么训练比较好,gemini那种形式,llm那种形式。
PS:
问了很多开放性的问题,给的回复是业务积累不够,hhhh。
美团【offer】:
一面:
- 文档大模型是一个独立的模型,会整合到一个大模型还是分离式的。
- 不考虑通用场景的。
- 目前用的多大的模型。
- 是一个什么结构。对结构的一些了解。
- flamingo或者blip2的结构上的对比。
- 足够资源的情况下,哪个结构是最优的。
- 分辨率是如何解决的。文档的分辨率比较高。
- QA对匮乏如何解决的。
- ocr的性能目前是低于多模态大模型。
- 如何解决bbox感知能力差的问题。
- 充足的算力。数据如何获取。如何有效的清洗。
- fuyu这种结构有什么优化的空间。
二面:
- OCR文档大模型
- Instruction tuning的决定性因素,哪些Instruction tuning策略效果更好。如何评估复杂度的性能。
- 如何保证数据集的多样性和复杂度。
- 分层的Instruction tuning。
- 数量的影响。数量和质量。
- 不同类型数据的影响。对下游任务的影响。自动化的数据配比。自动化的指标去做类似的事情。
- 专门优化的指标不再是一个好的指标。 使用其他的指标来引导模型的优化,而不是使用下游的指标。LLM使用的loss,作为指标。而不是benchmark的分数。
- 合理的评估指标是什么。openAI的压缩理论,trainnig loss代表优化目标。
- AGI的几个阶段,deepmind发表。
三面:
各种问题
四面:
- 介绍自己。
- 有一个多模态大模型,具备一些很多baseline的效果,基础的CV能力。可能效果都不是特别好。不如专精的大模型。OCR为例。目标得到一个类似GPT4V的模型,整理提高模型的效果。第二个,全流程,强化ocr能力。已有的多模态大模型。
- 文档场景。
HR面注意点:
1、跳槽动机:如果是因为晋升不上去看机会,建议这么说:内部机会少,太稳定,想看更有发展的机会,别直接说晋升不上去才看机会,⚠切勿说和leader处不来或者说目前leader坏话。
2、关于薪资:可以回答看企业安排,或者回答一个区间,保底多少,期望多少,加一句薪资可谈,留足谈判空间,如果企业给的薪资不太满意,⚠别直接拒绝,就说考虑一下,我这边去谈,最后面试结束时,记得感谢下面试官的时间。
3,关于加班:大厂都大差不差,HR问就是试探⚠切勿说接受不了。
由于文章篇幅有限,不能将所有的面试题+答案解析展示出来,不过已经整理成PDF了!!!
每一章节都是站在企业考察思维出发,作为招聘者角度回答。从考察问题延展到考察知识点,再到如何优雅回答一面俱全,可以说是求职面试的必备宝典,每一部分都有上百页内容,完整版可直接下方扫码领取!!!!
