机器学习方向,找实习阶段遇到的面试问题

原创 2018年04月15日 15:46:28

机器学习面试,找实习阶段遇到的面试问题


  本文列举的所有问题,包括了我在面试过程中真实遇到过的关于机器学习理论方面的问题,也增加了一些我思考过、觉得可能会问到的问题。在我面试结束以前,我会继续更新下去。有时候光看书效果是不好的,多问自己一些问题,或者给自己来一场面试,往往就能加深理解和记忆。很多时候我们觉得懂了,那都是以为自己懂了,其实什么都不懂。


概述篇
你是怎么学习机器学习的?
你最近在做什么?学些什么?
你学习机器学习的时候主要是看什么书?
说一说你所了解的机器学习的整体框架?
有监督学习和无监督学习分别是什么?各有哪些?
生成模型和判别模型分别是什么?各有哪些?
说一个你最熟悉的机器学习算法或者模型?
谈谈你对现在用得比较广泛的机器学习算法的了解?

LR篇
说一下LR的原理?
LR的概率是什么形式的?
为什么LR要用sigmoid函数?用其他函数行不行?
LR的损失函数是什么?
交叉熵的意义是什么?它和KL散度有什么关系?
LR可不可以用平方误差做损失函数?与交叉熵相比有什么缺点或优点?
LR用极大似然估计求解参数和用对数损失函数求解参数的区别或联系是什么?
LR是如何求解的?
请从伯努利分布推导出LR的交叉熵函数?
LR的模型参数是什么?
LR对输入数据的分布有没有要求?比如是否要求x服从正态分布?
LR的输出服从什么分布?或者说概率p(y|x)服从什么分布?
为什么LR的输入常常是Onehot过的高维特征?
LR和SVM的区别是什么?
LR可不可以像SVM那样引入核函数?
LR为什么比线性回归更好?
LR和感知机模型的联系和区别是什么?
LR应该如何做并行?
你是否了解LR的在线学习算法?
LR要如何减少过拟合问题?
LR有什么优点和缺点?
LR的适用场景有哪些?
LR怎么做多分类问题?

SVM篇
说一下SVM的原理?
SVM的目标是什么?
什么是函数间隔,什么是几何间隔?
为什么SVM要引入拉格朗日乘子法?
什么是支持向量?
为什么SVM要引入核函数?
什么样的函数可以是核函数?
有哪些常见的核函数?
高斯核函数将数据维度提升到多少维?
有什么高效求解SVM对偶问题求解拉格朗日乘子的方法?
说一下SMO算法?
SVM和LR的区别?
SVM是否需要正则化?
SVM有什么优点和缺点?
SVM的适用场景有哪些?

决策树篇
决策树是什么?
什么是Boosting?什么是Bagging?
说一下ID3和C4.5?
说一下CART树?
你知道哪些结点分裂的准则或指标?
基尼指数有什么意义?
熵和基尼指数有什么区别?
树模型怎么防止过拟合?
GBDT怎么防止过拟合?RF怎么防止过拟合?
什么是提升树模型?什么是梯度提升树模型GBDT?
为什么GBDT要拟合负梯度,和拟合残差有什么区别?拟合负梯度有什么优势?
为什么负梯度方向是loss下降最快的方向?
提升树模型是怎么把模型输出转化为概率的?二分类问题如何?多分类问题如何?
GBDT和RF有什么区别?
GBDT和RF各有什么优缺点?
GBDT和RF各自的适用场景如何?
请你推导一下Xgboost。
说一下Xgboost和GBDT的区别?
Xgboost是怎么减少过拟合的?
Xgboost的结点分裂策略是怎样的?
Xgboost为什么那么快?
Xgboost怎么处理缺失值?
LightGBM和Xgboost的区别是什么?
LightGBM为什么那么快?
说一下LightGBM中的GOSS算法?
说一下LightGBM中的EFB算法?
说一下LightGBM中的直方图算法?
LightGBM是怎么处理Category类特征的呢?

FM篇
说一下FM和FFM的原理?
FM是用来解决什么问题的?
FM和LR有什么区别?
FFM和FM的参数谁更多?
FM的模型输出是什么?

比赛篇
说一个你觉得做的最成功的项目/比赛?
说一个你觉得做的最失败的项目/比赛?
你觉得比赛中最重要的一点是什么?
你的创新点是什么?
你们队伍的分工是怎样的?你充当着一个怎样的角色?
你们队伍尝试了那么多模型,最终是怎么决定用哪个模型的呢?
有没有了解过你们和排前面的队伍的差距在哪里?
有没有试过用深度模型?效果如何?
数据类别不平衡如何处理?
连续型特征如何变成离散型特征?
如何衡量一个模型的好坏?
如何构造线下验证集?
有哪些模型融合的方法?
stacking和blending的区别是什么?
stacking和bagging的区别是什么?

混合篇
什么是过拟合?怎么定义过拟合?
有哪些减少过拟合的方法?
L1和L2有什么区别?
为什么L1有特征选择的功能?
L1和L2分别是对模型参数引入了怎样的先验分布?
BatchNormalization的作用是什么?
AUC曲线要怎么绘制?
在绘制AUC曲线时,若有样本模型预测值相同,它们应该如何排序?
分类和聚类有什么区别?
你知道哪些最优化方法?
不可导的最优化问题有什么解决方法?
讲述一下坐标下降法,最小角回归法,近端梯度下降法?
讲述一下OWL-QN?

找实习以及面试期间机器学习基础总结

部分问题是其他大佬博主总结的,答案大部分是自己的理解,也有面试的时候遇到的问题,不定期更新 基本知识: 1)最小二乘法 最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据...
  • u010922227
  • u010922227
  • 2017-08-31 16:14:45
  • 734

我在面试机器学习、大数据岗位时遇到的各种问题

原文  http://dataunion.org/20682.html 主题 数据挖掘 大数据 作者:  @太极儒 出处:  @太极儒的博客 自己的专业方向是机器学习、数据挖掘,...
  • u011086367
  • u011086367
  • 2015-12-28 09:43:50
  • 330

机器学习实习面试跪着走的越来越远

犹记得那天,大家都收到腾讯面试通知,我等啊等,没有收到,然后决定去霸面。放了简历回来之后,正在午睡,接到电话说第二天早上面试,当时心情特别好,看了好多机器学习的相关知识,准备大显身手。到了现场,我居然...
  • leilei_tina
  • leilei_tina
  • 2016-04-19 17:48:21
  • 2482

数据挖掘/机器学习 之 面试总结

从过年到现在我找实习,先后面了:新浪微博,360,支付宝,百度地图,岗位都是关于数据挖掘和机器学习的,现在把面试经验总结如下: 简历的问题,要为每一个岗位做特定的简历,简历上和这个岗位无关的东西最...
  • lihdchao
  • lihdchao
  • 2016-04-11 22:09:28
  • 1952

17年春,机器学习实习,腾讯四个BG,五次面试实录。

背景: 本人就读于华南理工大学,是985。 17年春,忽逢腾讯面试,中有WXG,CDG鲜美,IEG缤纷,TEG若有光。 复前行,欲穷其面。...
  • a790209714
  • a790209714
  • 2017-09-01 13:56:21
  • 2133

2015阿里实习生面试经验--数据挖掘岗

本人小硕一枚,于2015年5月5日在广州参加了阿里的数据挖掘工程师面试,几经波折,在此分享个人的面试经历,给各位看官垫垫脚,希望你们顺利。 笔试题: 笔试20题选择,3题附加。选择应该是所有技术岗一样...
  • SweetCookie
  • SweetCookie
  • 2015-05-06 16:19:42
  • 1682

2017暑期实习算法工程师(机器学习)面试经验

面试经验: 腾讯基础研究实习生面试: 首先让自我介绍,简单介绍了科研方向及成果,做过什么项目以及具备那些技能,然后问了我科研是做什么的,我说做移动机器人视觉伺服研究,他可能没懂,我又解释了一下说是...
  • m0_37582096
  • m0_37582096
  • 2017-06-01 19:30:13
  • 5736

百度机器学习实习面试经历

一面: 上来应该先看的是项目。我项目里有一个关于无监督聚类的研究,他问了一下有监督和无监督的区别,我的回答他应该不满意。 接下来问的是编程语言,问主要问C和C++,比如C++的virtual关键字...
  • u010770184
  • u010770184
  • 2016-11-29 19:04:04
  • 2158

2017暑期实习面试总结-机器学习算法岗

2017 机器学习算法岗暑期实习生面经 已顺利拿到阿里,腾讯,360,爱奇艺,华为,远景能源offer。...
  • Never_Stop_
  • Never_Stop_
  • 2017-04-19 09:05:27
  • 5977

一线互联网公司机器学习岗位面试经验

从9月18号开始投实习简历到10月21号,差不多一个月的时间,面了三个互联网公司,有研发岗和算法岗,有的拿到了internship, 也有的被惨虐;会有面试通过的惊喜,也有一轮游的不甘;对结果的无法...
  • u010111016
  • u010111016
  • 2016-10-21 19:26:40
  • 6989
收藏助手
不良信息举报
您举报文章:机器学习方向,找实习阶段遇到的面试问题
举报原因:
原因补充:

(最多只允许输入30个字)