阿里妈妈一面:
这是我遇见最难得面试,最难,最难,重要的说三遍;
- 自我介绍,这都是套路了,简单介绍就好;
- 介绍比赛过程,怎么做的比赛,然后随机提问;
- 从Boosting到AdaBoost到GBDT到LightGBM介绍演变路线,各个模型到底是怎么回事;
- 怎么做的特征工程,哪些特征比较重要;
- 一定要做EDA和特征工程吗,这里回答比较传统,应该比较lightgbm和NN,NN的优势就是避免了特征工程;
- 不同的模型(主要分析lgb和NN)数据应该如何处理,有什么不同的处理方式吗,为什么会有不同;
- 比赛用的什么指标,ROC,ROC是怎么得来的,知道G-ROC吗,ROC评价指标是否合理,有没想过考虑其他的;
- NN怎么来做这种任务,从MLP到DeepFM(简单的思想);
- 怎么避免过拟合,老生常谈了,如何避免欠拟合,这里简单的整理了下,欢迎补充;
- 问了一个概率题,我是很懵逼,一个骰子,随机往桌子上扔,求扔多少次,每个面至少出现一次,扔的次数的平均值(十分爆炸),思路是从最少的次数到最大的次数,然后求各个次数每个面至少出现一次的概率,得到一个数列后,对这个数列进行求和,n趋向于无穷大求极限;从这里基本就炸了;
- 有两根不均匀分布的香 香烧完的时间是一个小时,你能用什么方法来确定一段15分钟的时间;我当时没想出来,非脑筋急转弯;
- 介绍下高斯分布和泊松分布,以及泊松分布和二项分布的关系;
- 强化学习了解吗,简单介绍下;
- 能否将一个思想或者任务,扩展到多个方面,是个开放性问题,举例子比如说强化学习除了常见的用在游戏中,其他领域如何应用,考察理解的广度;
- Leetcode Medium题56. Merge Intervals 当时忘了最优怎么做了,非常尴尬,哎,表现最不好的地方吧。
- 关于特征工程的一些讨论,是否有必要;
- 你的兴趣是什么,以后想从事什么工作,其实这个想问是否和他们的工作契合吧,我换了一种回答方式;
- 在小米的工作任务是啥,音乐分类,简单介绍下如何实现音乐分类,两种方法分别是什么;
- 关于论文的一些讨论,还有学校的一些事情;
华为一面
- 自我介绍
- 介绍Quora比赛,具体是什么,都做了哪些工作;
- AiChallenger都做了什么,这个比赛是怎么回事;
- Word2Vec、Glove、fasttext分别是什么,如何得到的,相互比较;
- 如何得到句子向量,和词向量的关系;
- 什么时候开始学NLP,专业和导师是做什么的,是否自学;
- attention机制是怎么回事;
- RNN、LSTM等怎么回事,有什么缺陷;
- attention机制的softmax是怎么做的;
- transformer是怎么回事;
- 样本不均衡如何来解决;
- 如何避免过拟合;
- 常用什么语言,什么框架;
- 神经网络如何调参,炼丹的思想;
- 简述贝叶斯调参;
- 在瀚思科技(第一家实习公司)的实习经历,在小米的工作和任务;
腾讯一面
- 自我介绍
- 介绍自己的比赛经历,详细介绍科大讯飞的比赛过程;
- 比赛任务是什么,都包括哪些特征;
- 在小米的实习经历,工作内容是什么;
- GBDT和XGBoost分别是什么回事,区别是什么;
- XGBoost并行化是怎么回事且是如何实现的;
- 提取了什么特征;
- 手机品牌的特征如何进行分析的;
- stacking的原理是什么;
- 开放性问题(这个问题问的最久),如何根绝王者荣耀玩家的历史信息,对玩家进行道具和皮肤的推荐;
- 对于上述问题,如何推荐金币卡和经验卡,提取哪些特征;
- 对于大规模稀疏数据如何处理,训练一个模型还是多个模型;
- FM、FFM相关的简单介绍;
- 介绍下Mapreduce和Hadoop相关的原理;
- Spark的某个函数如何使用;
腾讯二面:
- 简单介绍,本科是哪,能什么时候来实习;
- 问比赛和项目经验,非常细,挑自己最熟悉的讲;
- 从头到位介绍了科大讯飞的比赛过程和比赛细节,一定足够熟悉比赛过程;
- 特征选择的方法,嵌入法(lgb)Vs过滤法(卡方检验);
- 为什么这些特征用lgb筛选,另一些特征用卡方检验来筛选;
- 为什么用5折交叉;
- 模型融合,为什么融合,怎么融合,何为最优模型。这个地方讨论了很多,要深刻理解模型训练的实质,模型学习train,val,test的统计分布。这里我的回答非常不确定,应该和实际的工程相关,模型训练的目标不是单纯的比赛刷榜,而是提高泛化能力。
- 有没有做数据预处理,如何做的;
- 和Top的差距在哪里,后来有发现什么提高模型的办法吗;
- Quora比赛,如何做的,模型的输入是什么,这个比赛最后选择的方案是什么;
- Aichallenger比赛,细粒度,粒度都是什么,如何训练的。比赛内容的介绍。文本长度,模型输入是什么等等;
- lightgbm为什么比xgboost快;
- 比赛分工是什么;
参考资料
[1] https://www.nowcoder.com/discuss/143458
[2] https://zhuanlan.zhihu.com/p/59259010