NewBeeNLP原创出品
作者 | 李可
香港中文大学(深圳) · 强化学习
写在前面
寒假前本着试试的心态,投了几家大厂的实习岗,商科转码er前端后端都不会,头铁全投了nlp算法岗(因为之前跟着清华研究院的老师做过相关的工作,所以了解一些)。今天收到了字节跳动的寒假实习offer,nlp算法岗,base北京,来写写面经,一是还愿,二是回馈之前在各网站上看到的经验帖。祝各位顺利!
个人情况
香港中文大学(深圳),大三,计算机科学与技术专业,大一是商院的,大二因为兴趣和擅长转到理工学院,在统计学和CS之间犹豫了一下,确定了后者。这里真的很感谢学校的宽松政策和高自由的选课制度~ 大二暑假在清华深圳研究院跟着Yang Li老师做了一点nlp算法相关的工程项目,学习了一些主流算法,开学后转到强化学习的方向做research。之前没有计算机基础,这学期刚开始学操作系统、数据结构、C++这些课程。
因为寒假实习比较折腾,所以只投了大厂,基本都经历了二面,情况如下
腾讯wesure nlp算法实习
一面
- 把数字转换成中文汉字给定输入”28024“,输出”两万八千零二十四“ ,这个没有什么算法知识,但有一些比较tricky的处理技巧。
- 找出第k个最大的数 这个CSC3100课上讲过
- 间隔反转列表,要求时间复杂度为O(n)
二面
只记录了答的不好的题目
- 给定文本分类的任务,人工打好了分类标签,想要利用classification建模,描述流程;如果最后准确率不高,怎么排查问题原因?
- 如何判断变量之间的相关性?除了相关系数之外还有吗?相关系数判断的是线性相关还是非线性相关?(线性)那怎么判断非线性相关?
- 分类和聚类的区别与联系; HMM和CRF的区别 (判别模型和生成模型的区别)
- SVM 现场推导
- 一些个性向的问题,(自己/朋友)如何评价自己;最大的优缺点
- 如果给你3天时间快速上手一门新语言,你会怎么做? 如果只给1天呢?
- 处理上亿条数据时,内存不够load文件怎么办?
总的来说,腾讯这个面的实在不难,主要围绕简历上的经历,扣的很细,会追问很深,比如遇到这样的问题怎么去处理,怎么去排查原因。
但是腾讯结果出的太慢,一面二面结束后,隔了一星期才问我(估计是进备胎池然后被捞),什么时候有空约个部门高级经理面,但这个时候我已经拿到了字节的口头offer,就跟对方终止了流程。
货拉拉 定位算法实习
- HMM讲了一遍
- 二分查找写了一下,分析时间复杂度 (靠,可能当时觉得太简单,十分窃喜,导致脑子抽了!!!写成了 T(n)= c+2T(n/2)… 很无语
- 青蛙跳n阶台阶问题 (Cn = Cn-1 + Cn-2),变体:如果不能连跳两级呢?如果可以跳1,2,3,…, n阶呢?
- 给定前序+中序或者中序+后序,恢复一棵二叉树(这个CSC3100讲了,但我期中以后就没听课,所以当时不会,面试官小姐姐很热心的提醒了一些思路,最后写出来了,有惊无险)
总体上很顺利,问的算法都是和面试官聊的不错,发现对方是Georgia tech的,扯了十分钟闲话。但因为实习时间原因放弃了。
百度 自然语言处理部 nlp实习
一面
- Transformer/BERT/LSTM算法简述
- LSTM和传统的RNN区别?
- 找两个字符串的最长公共字串 (暴力求解;然后用动态规划优化)
- 十进制小数(0到1之间)转化成b进制数(1
- HMM和CRF的区别 (判别模型和生成模型的区别)?CRF的损失函数长啥样?HMM三种问题的具体解法?
- 简历分词为啥不直接用命名实体做?
二面
- SVM和logistics regression的区别
- L1正则和L2正则的区别
- 什么时候要归一化(normalization)
- BERT/Transformer
- 准确率 召回率计算公式 表示含义
- 还问了特别多特别多简历项目上的细节处理问题,答的特别不好,但是不记得了……
百度二面的时候也已经拿到字节的口头offer了,所以当时去面试是比较勉强的,本着增加经验+防止字节仙人跳的心态,对方面试官不知道为啥语气也有点严格,可能是晚上八点面试加班很不爽吧,总之这个面试我俩语气都不太好。。很奇妙哈哈哈哈 但还是聊了一个多小时(确切的说是被质问/逼问/压力面了一个多小时
字节跳动 nlp/搜索算法实习生
面字节是特别深刻的经历。12.6上午我去赛格考托福,中午出来十二点多,来不及赶回学校,就在附近找了个网吧等面试。第一次去网吧,充了一个小时,以为够了,结果面试途中两次打断面试官,“不好意思,我去前台再充一个小时回来继续面!"
网费好贵,30r/h
网吧很嘈杂,网络也断断续续,经常卡,所幸面试官贼好,后来直接挂了视频打电话过来面。
字节跳动总体感受
- 两个面试官都很年轻,一面面试官还有点帅;二面打电话的,没看见脸
- 两个面试官都不好糊弄(比如他们虽然是nlp部门的,但也很懂我简历上的强化学习,貌似对学界paper也看得比较多),挺厉害的。特别是一面面试官,对于我现在导师做的东西竟然很懂,比如Q-learning和Policy Gradient,还问了一些学术最前沿的东西,我不会,他就说了几篇paper,说感兴趣可以回去了解一下。
- 面试效率极高,当天连着两面,面了两个多小时,当天出结果,第二天约hr面,字节牛逼!
- 网吧的键盘手感好棒啊……以后的梦想是自己配一套台式机,买个好显卡,好屏幕,好键盘,周末就可以玩游戏了
笔试题
- 实现函数 int sqrt(int x). 要求复杂度O(lgn)
- 用dfs找到无向图的所有连通分量
- 输入一个矩阵,找出所有的connected components。我当时用了stack,思路有点像CSC3100课上讲的用stack解决迷宫问题
技术性问题:
- AUC/ROC曲线意义
- BERT/LSTM
- 训练集正负比例严重失调怎么处理?
- 准确率 精确率 召回率
- 强化学习最新的算法
- 强化学习流派 deepmind/openAI Sutton/Berkeley
- HMM过程讲述
这几天总结下来的感受
- 数据结构和算法是门好课(这学期shen kaiming老师的补充材料都很有用,面试常考的)
- 机器学习的传统算法要熟悉,也要稍微关注学术界最新的动态,不然会被cue
- cs岗面试太累了,动辄1-2小时
- 尽量找内推吧。这次我都是第三方投的,后来HR小姐姐告诉我内推的话更容易一些
剩下的想到了再补充!
- END -
由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:
(1)点击页面最上方"AINLP",进入公众号主页。
(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。
感谢支持,比心。
![681660651b517182baa999f98e3f0415.png](https://img-blog.csdnimg.cn/img_convert/681660651b517182baa999f98e3f0415.png)
推荐阅读
这个NLP工具,玩得根本停不下来
征稿启示| 200元稿费+5000DBC(价值20个小时GPU算力)
完结撒花!李宏毅老师深度学习与人类语言处理课程视频及课件(附下载)
从数据到模型,你可能需要1篇详实的pytorch踩坑指南
如何让Bert在finetune小数据集时更“稳”一点
模型压缩实践系列之——bert-of-theseus,一个非常亲民的bert压缩方法
文本自动摘要任务的“不完全”心得总结番外篇——submodular函数优化
Node2Vec 论文+代码笔记
模型压缩实践收尾篇——模型蒸馏以及其他一些技巧实践小结
中文命名实体识别工具(NER)哪家强?
学自然语言处理,其实更应该学好英语
斯坦福大学NLP组Python深度学习自然语言处理工具Stanza试用
关于AINLP
AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLPer(id:ainlper),备注工作/研究方向+加群目的。
阅读至此了,分享、点赞、在看三选一吧?