节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。
针对大模型技术趋势、算法项目落地经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。
总结链接如下:
喜欢本文记得收藏、关注、点赞。更多实战和面试交流,文末加入我们星球
大家好,最近面试了抖音 NLP 算法岗,八股文我准备的还是比较充分,但手撕代码题,每次问到都特别紧张。
这次面试官人很 Nice,也很有耐心,给了一些引导和思路,虽然多浪费了一下时间,最终还是做出来了。
一面
-
聊项目
-
AUC的两种公式是?你能证明这两种等价的吗?
-
BERT-CRF中,为什么要加CRF?好处是?
-
self-attention为什么要用QKV三个矩阵,不用有什么问题?有没有哪个模型的Q和K矩阵是一样的?
-
reinforce属于on-policy还是off-policy?为什么?
-
reinforce带上baseline好处是?reinforce的loss写一下?
-
策略梯度会推导吗?简单写一下?
-
介绍大模型微调的优化方法及其区别
-
比较ChatGLM、Llama、qwen等大模型的区别
-
比较 Layer Normalization(Tayernormalization)和Batch Normalization的区别
-
大模型 langchain 和 Ilamaindex,比较两者的区别
-
描述从0到1训练大模型的流程、方法及注意事项
-
当前大模型检索存在的问题,以及如何进行RAG(Retrieval-Augmented Generation)优化的方法
代码题
代码题一般别着急写,先跟面试官说下思路,确定了再写
- 给定一个无重复整数数组,返回所有可能的排列
Input: [1,2,3]
Output:
[
[1,2,3],
[1,3,2],
[2,1,3],
[2,3,1],
[3,1,2],
[3,2,1]
]
- 矩阵置零:给定一个 m * n 的矩阵,如果一个元素为 0 ,则将其所在行和列的所有元素都设为 0
二面
-
介绍项目
-
知识蒸馏有哪几种?你觉得哪种效果最好?
-
nlp 的数据增强方法,主要有哪几种?每一种举个例子?
-
分类的损失函数为什么是交叉熵而不是mse?
-
BERT对输入文本的长度有什么限制,为什么要限制长度呢?
-
目前有哪几种注意力机制?
-
给出emb_size, max_len, vocab_size, ff_inner_size,num_heads, 12层,求BERT参数量 项目常规问题:项目中印象最深的点,怎么解决的,提升多少
代码题
n 皇后问题,基于基础版进行了升级