作者 | leonlin96
NewBeeNLP公众号
楼主是21届毕业,秋招主要投算法岗(偏NLP方向)和数据岗方向,下面分享我的一些面试经历。
一、科大讯飞(NLP)
简要介绍自己
Python里面哈希表对应哪种结构,是如何解决哈希冲突的
DSSM模型和ESIM模型的区别
Word2vec原理,word2vec和fasttext原理上的区别
Bert原理,bert随机mask掉15%的词,为什么要随机有80%替换为【mask】,10%要替换为别的单词,随机10%不替换
文本匹配怎么使用bert
实习里的项目
Xgb原理
编程题:找无序数量的中位数,时间复杂度比排序要快
二、字节跳动(广告算法)
AUC的原理(衡量分类器排序的能力),计算(100正,900负,分类器是0到1均匀分布,计算AUC)
样本不平衡如何改进,影响了样本原本的分布该怎么办
代码实现梯度下降
给一个rand5,如何用代码实现rand7(构建[rand5()-1]*5+rand5(),第一项{0,5,10,15,20},第二项{1,2,3,4,5},加和结果{1,2,……,25},踢掉大于21的数,剩下的仍是等概率出现的,在对7求余在加1即可得到rand7())
三、触宝(NLP工程师)
面向对象,面向过程,面向切面的不同和优势劣势
排序算法稳定性,有那些稳定的排序算法和不稳定的排序算法
面向对象的三个性质
数组和链表各自的优势劣势
一个target,一个数组,找出数组里面所有和为target的组合,数字可以重复(DFS深度遍历,当path求和大于target时回溯)
了解哪些分类器,具体介绍
决策树分支的标准,gbdt和xgboost的区别
梯度消失和梯度爆炸,有什么办法解决
k-means的k值如何确定
了解哪些损失函数
具体介绍word2vec的原理
Bert的原理,看过哪些bert改进之后的方法(ALBert的原理,XL-Net了解过吗)
Transformer里面self-attention和一般的attention的区别
介绍目前实习中做的一些东西
聚类的方法有哪些,评价聚类的指标有什么
对NLP的前景有什么看法
反问问题
四、网易(数据挖掘工程师)
介绍一下目前实习中的工作内容
怎么迭代模型(收集bad case,重新修正打标签的函数,然后重新训练模型)
Bad case怎么收集(需求方反馈)
实习中跑的模型(过滤信息)有没有和别人的方法比较过,评价指标是什么
有没有和产品运营沟通过的经历
五、oppo(NLP工程师)
数学系在算法工程师就业中的优势和劣势
编程能力如何
概率题:甲、乙两个人轮流吃糖,每一轮吃到的概率为1/2,,先吃到的赢;甲赢的概率。有两颗糖,甲吃到糖个数的期望
编程题:求回文数
介绍实习中的项目
如何缓解过拟合
深度学习和传统机器学习的优劣
周末会用来干啥
遇到困难如何解决
给一个1T的无序大数组,找中位数
六、虎牙(NLP工程师)
介绍做的比较好的项目
fasttext原理,bert预训练
实习中的项目
算法题:rand11实现rand7
卷积神经网络和全连接网络的异同点
why 深层网络
反问问题
七、阿里CTO线(NLP工程师)
介绍实习做过的项目,参加过的比赛
简要介绍ESIM模型
NLP任务的问题,场景,解决的方法
为什么上段实习两个月就走了
九、快手(数据挖掘算法工程师)
介绍印象最深的做过的项目
介绍Word2vec原理及损失函数
介绍ESIM,DSSM
Xgboost原理
有没有做过大数据量级别的文本匹配(TB级别),用没用过spark,hive等
概率题:一个孤岛重男轻女,直到生出男孩为止,男女出生率1比1,初始比例也是1比1,问最终的男女比例。平均一个家庭有多少个孩子。
概率题:某疾病发病概率1/1000,患者有95%的概率检测出患病,健康者有5%的概率被误诊,问若一个人被检测出患病,实际患病概率是多少。
算法题:旋转数组,查找某个特定值(二分法的变种)
算法题:LeetCode股票问题第一问(动态规划)
一面结束马上二面:主要聊实习中的业务,重点比较关注私信反垃圾的部分(因为是风控部门)
九、腾讯WXG(NLP)
私信反垃圾,如何从整体评估数据的一个恶意率(没做过,答不上来)
机器学习如何选取数据
如何缓解过拟合
介绍L1, L2正则化
知道哪些模型评价指标
AUC和F1的区别,分别使用在什么场景
介绍relu,Sigmoid,tanh
知道哪些损失函数(回归,分类)
介绍反向传播(BP)
介绍损失函数在神经网络中的重要性
LSTM,Transfomer,BERT原理
介绍SVM
介绍卷积神经网络
resnet的残差链接
手推logistics regression
代码题:快速排序
介绍NER,POS(词性分析)
HMM
做题:翻转链表,实现求AUC算法,实现LSTM,python深拷贝和浅拷贝的问题
十、招联金融(数据分析)
介绍电信用户流失分类的项目
如何处理过拟合
Xgboost原理
实习经历的收获
未来发展的规划(职业定位,工作地点,薪资)
介绍项目:电信用户流失
实习:私信反垃圾,在线客服人工坐席知识挖掘
机器学习解决不了的问题,用更简单的规则匹配怎么做
算法实习正则匹配(简要说明就行,递归)
对招联金融有什么看法,未来的职业定位
十一、BIGO(NLP)
手撕代码:求一个数列正序对个数
挖简历:项目和实习
手撕代码:挖井的问题(每个家庭都可以打井,成本为c[i],或者挖水管,i,j两家通水管成本为dp[i][j]。求所有家庭喝上水的最小成本)
堆排序
十二、华为运营商bg(AI工程师)
手撕代码,输出数据库中满足四个要求的样本(具体要求忘记了,涉及到hash)
AUC原理,ROC曲线上每个点代表的含义
挖项目
手撕代码:和字典排序相关,也是easy级别的题目
实习经历
详细介绍某个实习或者项目,其中在数据预处理,建模,优化,后续改进四个方面上是如何体现的
HR面
自我介绍
人生中的挫折
有去国企的打算吗
未来的职业定位和发展
对华为的看法,在心目中的排位
薪资的期望
十三、汇量(算法工程师)
一面
手撕代码:LeetCode17电话号码的字符组合
介绍HMM
Word2vec和fasttext的区别,fasttext的改进
爬虫有用过动态框架吗
介绍实习经历、项目
二面
手撕代码:一个亿级别的数据,是地球上各个位置的温度,对该数组进行排序,时间复杂度O(n)。面试官非常nice,给了很多提示,最后写出来了...真是惭愧
Bagging和boosting的区别
过拟合的解决办法
知道哪些分类器
Svm,LR区别
数组和链表的区别
哈希冲突的解决方法
十四、三七互娱(算法工程师)
聊实习经历,就只有20min
十五、网易云(深度学习算法工程师)
介绍项目
估计Word2vec的参数量
Spark用没用过
简要介绍MapReduce的原理
挖项目,两面都没有撕代码
十六、字节跳动(nlp算法-DATA)
手撕代码:求数组最长上升子序列的长度
介绍实习项目
Lgb和xgb的区别
十七、深信服(算法工程师)
挖项目
Python中的字典的查找时间复杂度
给定一个数组arr,tagert,求数组元素的组合之和=target的所有可能。(o(N)的解法)
聊实习的工作
C++编程:分配1024个字节的内存,按字节对内存进行循环赋值,取值为0-255
Python代码运行时间超过正常情况要怎么办
十八、百度(算法工程师)
两个栈实现一个队列
一个连续数组有断点,logN时间复杂度找到它
Xgb和lgb的区别,和其他树模型比的优势
挖项目
十九、腾讯wxg补招(应用研究)
面了七轮,主要还是挖简历,问一下各种算法原理(基础的LR,kmeans,dbscan,XGB,bert方方面面都涉及到了)。
算法题:1.小于n的正整数里面1出现的次数;2.找出有序数组里面第一个重复1000次的数字3. LeetCode 409
智力题:40匹马8个赛道,每个赛道都可以知道马的排名,如何给这40个马排名