2018春招实习-机器学习算法工程师各个公司面试经验

最新推荐文章于 2021-06-22 15:52:38 发布

二当家的掌柜

最新推荐文章于 2021-06-22 15:52:38 发布

阅读量1.9k

点赞数 4

分类专栏：面试文章标签：实习面试 BAT 校招

本文链接：https://blog.csdn.net/github_39261590/article/details/80011229

版权

面试专栏收录该内容

1 篇文章 0 订阅

订阅专栏

2018年1月初结束了上一个公司的实习，在三月初开始找今年的暑期实习，因为前面一个公司一直在做数据挖掘工程师的工程，加上自己想去互联网锻炼一下，同时想寻求算法工程师的工作，所以投了大概6家公司的机器学习算法岗，包括阿里妈妈，美团点评搜索组，腾讯SNG，滴滴，初创公司栈略数据，百度。目前是收获了三家公司的offer，腾讯，百度和栈略数据。

阿里妈妈：

那时候阿里妈妈的暑期内推特别早，年前就开始了，我就找了个师兄内推了一次，年前的一面。唉，开始的太早了，我都没什么准备直接参加了一面，惨。但是呢，面试问了我足足1个小时40分钟，给了我一种要过的感觉，结果最后等了一个月一封通知，不好意思不合适。。。

阿里一轮面试：

1、简历写的算法全部都要会、项目的细节、论文的细节
2、K-means的原理
3、DBSCAN的核心对象是什么什么叫密度可达
4、k-means 和DBSCAN可调的参数是啥
5、RF怎么选择最优特征，怎么用一句话说明信息增益
6、说明信息增益的物理意义
7、SVR的原理
8、随机森林和GBDT的区别
9、神经网络的优缺点，为啥现在神经网络火
10、梯度消失与梯度爆炸
11、激活函数的选择
relu、sigmiod、tanh区别是啥
12、如何防止过拟合
batch_normalization、dropout、L1/L2等等
13、多标签问题
基本上，有三种方法来解决一个多标签分类问题，即:
1. 问题转换
1. 二元关联（Binary Relevance）
2. 分类器链（Classifier Chains）
3. 标签Powerset（Label Powerset）
2. 改编算法
3. 集成方法

百度面试

第一轮：
两道python
1. 第一个是找到数组大于长度一半的数字
2. 讲一下RF和gbdt的不同点
3. 讲一下LR为啥使用sigmoid函数
4. 第二个对字典排序，按照key排序（不能增加空间）

第二轮:
1. 中序遍历
2. 链表合并
3. 二分法（递归和非递归）
4. 讲一下RF和gbdt的原理和不同点
5. GBDT 特征中如果出现连续值和离散值怎么处理，第一种可以对离散值做one-hot编码第二种可以将连续值改成离散值用分段）

百度大数据组
1. LR推导
2. 手写数字的分类问题什么算法比较好
3. 以前用svr 现在CNN
4. 算法题
4.1、查找数组中某个target的count值
4.2、实现开根号
5. 讲一讲聚类的原理概念

大众点评搜索推荐组

一面：
1. 随机森林和GBDT对特征重要性的评估

特征重要性度量
计算某个特征X的重要性时，具体步骤如下：
1）对每一颗决策树，选择相应的袋外数据（out of bag，OOB）计算袋外数据误差，记为errOOB1.
所谓袋外数据是指，每次建立决策树时，通过重复抽样得到一个数据用于训练决策树，这时还有大约1/3的数据没有被利用，没有参与决策树的建立。这部分数据可以用于对决策树的性能进行评估，计算模型的预测错误率，称为袋外数据误差。
这已经经过证明是无偏估计的,所以在随机森林算法中不需要再进行交叉验证或者单独的测试集来获取测试集误差的无偏估计。
2）随机对袋外数据OOB所有样本的特征X加入噪声干扰（可以随机改变样本在特征X处的值），再次计算袋外数据误差，记为errOOB2。
3）假设森林中有N棵树，则特征X的重要性=∑（errOOB2-errOOB1）/N。这个数值之所以能够说明特征的重要性是因为，如果加入随机噪声后，袋外数据准确率大幅度下降（即errOOB2上升），说明这个特征对于样本的预测结果有很大影响，进而说明重要程度比较高。

LR中如果有两个特征相关，那么他们的权重什么关系

设想建立一个具有两变量X1和X2的线性模型，假设真实模型是Y=X1+X2。理想地，如果观测数据含有少量噪声，线性回归解决方案将会恢复真实模型。然而，如果X1和X2线性相关（大多数优化算法所关心的），Y=2*X1, Y=3*X1-X2或Y=100*X1-99*X2都一样好，这一问题可能并无不妥，因为它是无偏估计。然而，它却会使问题变得病态，使系数权重变得无法解释。
因为很多现有线性回归量为每个系数返回P值，对于线性模型，许多实践者认为，系数绝对值越大，其对应特征越重要。事实很少如此，因为：(a)改变变量尺度就会改变系数绝对值；(b)如果特征是线性相关的，则系数可以从一个特征转移到另一个特征。此外，数据集特征越多，特征间越可能线性相关，用系数解释特征重要性就越不可靠。
RF和GBDT的区别
如果商户有N个特征，文章有M个特征，文章有的商户不一定有，商户有的文章不一定有，最后分类结果是点击或不点击，怎么进行混合排序。

滴滴

一面：
手撸两道算法
1、快排（最好不要增加空间）
2、树的深度遍历

二面：

1、聊项目
2、讲k-means中特征怎么处理，如何处理离散值和连续值
（讲了可以连续值全部处理成离散值，然后再求距离；也可以将每一个特征都做一个归一化）
3、gbdt的算法过程，残差怎么拟合（用cart树，损失函数的负梯度值）

4、随机森林的算法流程
5、LR的算法流程
6、讲LSTM的三个门，每个门的输入是啥
7、讲一讲了解的优化算法（只知道神经网络的优化算法 Adam等等）
8、聊知道的损失函数（SVM、LR、GBDT。。）

腾讯

腾讯三面
一面：
介绍项目「细的粗的都要会」
讲gbdt 梯度提升树为啥叫这个名字从原理讲
讲kmeans的原理和步骤

二面：
主要做一份笔试题包括12个选择题智力题数学题矩阵深度学习梯度下降梯度弥散

三道解答题：
1、关于特征选择的一道场景题
2、假设检验、备选假设之类的
3、神经网络的优缺点（各5点）

一道编程题网上有（关于石子合并）
后面简单聊一聊项目

三面总监老大
总监大人气场超强
1、项目真的会一直逼问追着问所以所有细节都要会
2、F1是啥 precision和recall、 auc 是啥
3、讲LSTM原理画框架图和RNN的区别
4、了解nlp吗了解不多… 只说了结巴分词和tf-idf
5、神经网络层数和每层参数个数的选择
（能否从数据量样本特征纬度来解释）
6、你自身的优缺点
7、自身的规划
8、看b站吗（我看抖音。。。）

二当家的掌柜

关注

4
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
2018春招实习-机器学习算法工程师各个公司面试经验

2018年1月初结束了上一个公司的实习，在三月初开始找今年的暑期实习，因为前面一个公司一直在做数据挖掘工程师的工程，加上自己想去互联网锻炼一下，同时想寻求算法工程师的工作，所以投了大概6家公司的机器学习算法岗，包括阿里妈妈，美团点评搜索组，腾讯SNG，滴滴，初创公司栈略数据，百度。目前是收获了三家公司的offer，腾讯，百度和栈略数据。阿里妈妈：那时候阿里妈妈的暑期内推特别早，年前就开...
复制链接

扫一扫

专栏目录