抖音日常实习 2月底
一面
- 算法题:全排列。
[a,b,c]求所有排列,用深度优先遍历可求解。 - 算法题: 给定一个有序数组和target,如果能找到target则返回索引,找不到则返回应插入的下标。
可以用二分查找做。 - 问项目:问得很细,然后由项目引申了一些算法知识
- 用户/物品冷启动的策略有哪些
- 加入了一个召回理由后,如何评估对冷启动的效果
- 如何解决新物品的召回和排序
- 用户和物品画像怎么做
- 正负样本不均衡的问题怎么解决
- 正负样本不均衡的话,AUC会失效么,AUC物理意义是什么
- 过/欠采样后,分布是否会有偏移
- 时间序列异常检测的流程
- 随机森林和逻辑回归的原理,这两者输入有何区别?
- c++什么程度,平时代码写的多吗
- 介绍了工作的情况,大概是一半时间python训练模型,一半时间c++修改推荐架构
- 开放题:你即将面试100家公司,每一家公司面试完会给你一个工资package,你只能当场选择接受或者不接受,接受后就不能毁约(不能选择后面的offer),问如何设定策略让自己package最大化。
二面
- 上来就写题
写判断链表是否有环(快慢指针)
进一步判断环的起点(链表起点和相遇点一起走,走到一起的时候就就恰好是起点)
证明为什么恰好是起点
- auc是什么,如果正样本减少一倍,写出公式(我只知道auc正负样本不均衡的情况下,基本auc不变,我当时的理解是tpr只和正样本有关,fpr只和负样本有关,所以和正负样本比例无关,但是写公式就有点懵了)
- 介绍p和r,pr有什么问题,什么情况用pr什么情况用auc(我拿癌症99:1举例)
阿里提前批 二/三月
支付宝 通过
支付宝这边算法主要以应用为主,很少做基础研究,我之前做过一些AIops时序的工作,他说和他们比较匹配,然后一二面都聊得比较愉快,很快就通过了提前批。
一面
- 问项目
主要就是我挨个介绍,他提问 - 和我介绍了他们的工作内容
二面
- 问项目
- 我介绍项目,他提问
- Mapreduce的工作原理
- 在搜狗实习每天数据量处理多少,如何处理数据偏移的问题
- 讨论了一下校招正式流程开启后,我选择哪个部门的问题
阿里云弹性计算 通过
一面
- 问项目
- 介绍一个收获最大的项目
- 银行数据是什么样的结构
- 我是如何提取时序特征的,为什么这么做
- 你提到你设计了两个算法,那你有考虑后续的改进吗,如何落地如何进一步提高
- C++会吗,介绍一下多态
- python的字典是如何实现的
- 如何解决哈希冲突
- 给你两个文件,每个文件内有100万个不重复的电话号码,如何求两个文件共有的电话号码
- 排序算法常见的有哪些,复杂度如何
- python可以用多线程吗,原理是什么,工作中用到过多进程的,如何解决通信问题
- 介绍了一下他们的工作
阿里云弹性计算部门是最核心的部门,这边主要以开发为主,算法为辅,算法会涉及推荐和负载均衡的问题。 - 给了一个网址让写代码,不是算法题,而是一个具体的应用题。给我了他们实际中会遇到的云服务器的数据,让完成两个子功能,其实就是数据处理。
1688(杭州) 通过
一面
- 自我介绍
- 常用的召回算法有哪些
- 常用的排序算法有哪些
- 讲一下如何用graph embedding做召回
- graph embedding中如何做负采样
- 讲一下深度兴趣网络的细节
- 多目标优化有了解吗
- 如何同时对视频、图文做混合排序,视频、图文的特征不完全一致
- 负样本如何有效利用
- 说一下常见排序算法的复杂度
- 给你发个链接,手写一下最大堆排序,输出列表的中位数
二面
忘了。。
三面
- 项目
- 设计一个推荐系统
- 零钱问题
- 一根绳子烧完1min,如何得到52.5s
CBU(北京) 通过
一面
- 自我介绍
她:你算法东西做得不够啊(因为我之前在搜狗,项目是信息流召回,公司的线上模型其实很简单,而且我在公司里其实不怎么碰模型,都是做mapreduce。然后在一家企业做过aiops,但是又和推荐模型不相关)
我:在企业里主要是做一些规则和数据的事情,模型用的很浅,ctr和召回相关的模型算法我都会,您可以问我
她:我们需要你实际用企业的数据做过算法研究 - 逻辑回归默认数据符合什么分布
- 逻辑回归的损失函数是什么
- 随机森林有哪些参数进行调试
- 介绍lstm的结构
- 神经网络训练不收敛怎么做
- 写题
- 写一个线性回归的训练全过程
- 用pandas写onehot编码(我一直用sklearn的库函数,这里让自己写,我就主要说了下思路)
- 用sql处理两个表
阿里妈妈 通过
一面
- 自我介绍
- 问简历
- 介绍一下常见的ctr模型
- 介绍din的原理
- 介绍xgb和gbdt的区别
- 随机森林调参经验
- python迭代器和生成器的区别
- 牛顿法
- 常见的优化算法
- 常见的激活函数
- topk问题
阿里云天基 通过
一面
- 自我介绍
- 问简历
- 介绍对AIops的看法
- python多态有了解吗
- python内存管理怎么做的
- 多进程如何通信
- mapreduce的原理
- 路由算法有了解吗
- 介绍k8s和docker的区别,k8s有哪些常用的组件
- 写题
一共三道题,这次写题写了好久,主要是伯乐网站不好沟通题干
蚂蚁金服国际部 通过
一面
- 自我介绍
- 问简历
- 七层网络分别是啥
- 三次握手分别是啥
- java python的区别
- cpu能否吃满 python
- python 闭包
- 装饰器
- 垃圾回收机制
- 生成器/迭代器,流水线任务可否用生成器
- 做一道题,数组topk,先写了个快排,然后取arr[:k]
滴滴地图部 日常&暑期 3月
一面
- 自我介绍
- 介绍graph embedding常用算法
我讲了deepwalk,line,node2vec和gcn - word2vec 和graph embedding的联系和区别
- 会使用spark吗,mapreduce你如何解决数据偏移的问题
- 介绍gbdt的流程
- gbdt效果为什么好于lr
- 讲一下LDA的流程
- LDA和SVD有什么联系
- 时间序列预测有哪些方式
- LSTM和arima的效果比对
- 了解模型压缩吗
- 介绍下CRF和HMM
- 写题:
(1)10亿数中找到中位数,这些树中重复数字很多
我用的字典,k是数字,v是出现次数,只对k排序
(2) 10亿数中找到中位数,重复数字不多
我当时说的用分治法,后来网上搜了下解决方法,可以参考我的文章
二面
- 自我介绍
- 实习经历和项目一个一个问,讲原理
- gbdt和rf的原理,它们基分类器有什么区别
- LDA的原理
- 介绍了一下他们的工作。实习和项目过完基本就差不多了,没问太多基础的知识。
京东广告部
一面
- 自我介绍
- 简历
- ctr预估模型
- 多gpu训练怎么做
- 卷积神经网络pooling 反向传播怎么做的
- lstm
- 随机森林怎么看特征重要性
二面
- 项目
- ctr预估模型
- 设计模式
- c++
- 逻辑回归参数初始化可以为0么
- 你遇到的人生最大的挑战
- 你是什么样的人
美团外卖广告
一面
- 介绍项目简历
- 写一道题:中序遍历的迭代法实现
- 介绍各种ctr模型原理,以及为什么这么改进
- 手写fm推导
- ctr模型工程实践中特征是怎么样的,如何输入到模型里的
- graph embeeding的知识,包括deepwalk,node2vec和gcn等。原理是怎样的,如何具体实现的
- deepwalk采样怎么做的,知道哪些采样算法
- deepwalk里w2v如何实现的,原理是什么,两种改进思路是什么
- 介绍下项目里的自研回归模型
二面
- 简历项目深挖
- 激活函数有哪些
- 优化方法有哪些
- rnn和dnn反向传播的区别
- sigmod函数如何得到的
- lstm用了哪些激活函数,为什么这么用
- 为什么用1*1卷机核
- 写一道题:旋转数组的二分查找
快手 社区科学部
一二面连着
- 写了四道题
- 问了问机器学习模型
腾讯新闻
一面
- 项目
- ctr模型