问项目
- 谈谈你最熟的或者做的时间最长的项目
- 描述项目解决的问题
- 描述数据挖掘竞赛解决的问题
- 描述对问题的分析
- 描述解决方案的流程,数据挖掘的流程
- 怎么做特征工程的
- 数据预处理的方法有哪些
- 归一化标准化方法有哪些
- 对缺失值处理方法有哪些
- 对项目的数据做了哪些处理
- 怎么提取特征的,提取特征的方法
- 提取了多少特征,特征的维度,哪些特征比较好
- 对特征的评估方法是什么,怎么判断其好坏
- 数据预处理的方法有哪些
- 用了什么模型
- 为什么用这个模型
- 介绍这些模型
- 模型的评估方法
- 分类模型评估方法有哪些
- 回归模型评估方法
- 项目中用了哪些评估方法
- 模型这些评估最优值是多少,AUC,召回率,精确率等
- 模型有哪些不足,哪里可以改进
- 项目最终的结果咋样
- 项目可以改进的地方,项目的缺点
- 做这个项目看了哪些论文,有哪些前沿的方法
问知识广度
- 什么是判别模型,什么是生成模型,并举例
- 谈谈你对VC维的认识
- 谈谈你对核函数的认识
- 说说你知道的损失函数有哪些
- 谈谈模型最优化方法有哪些
- 解释方差、误差、噪声
- 如何处理有序变量?如何处理无序变量?
- 遇到稀疏值怎么办
- 如何进行特征选择?如何进行数据压缩?
- 什么是欠拟合与过拟合?如何应对这两种情况?
- 方差、误差与欠拟合与过拟合的关系
- 正则项(规则化)在模型中的作用和原理。
- 评估模型一般有什么手段
- 介绍ROC、AUC、F1、召回率等
- 模型选择有哪些方法
- 数据不均衡的评估方法?正负样本不平衡怎么解决?
- 知道哪些模型融合的方法?
- 模型融合为什么有效果?
- 怎么看待机器学习和深度学习
- 知道半监督学习吗
- 对广告搜索,推荐系统有了解吗
- 说说时间序列分析
- 对自然语言处理呢
问算法
SVM
- 简单介绍SVM
- SVM相比LR有什么联系和区别
- SVM为什么需要最大间隔
- SVM中的w与规则化有什么联系
- SVM对过拟合怎么处理的
- SVM的推导
- 原始问题是怎么来的
- 原始问题为什么需要转化为对偶问题求解
- 原始问题为什么可以转化为对偶问题求解
- 求解对偶问题时的KKT条件分别是什么意思
- SVM为什么引入松弛变量
- 松弛变量的作用
- 松弛变量参数C越大,越过拟合?
- SVM为什么引入核函数?
- 为什么可以引入核函数?
- 有哪些常用的核函数?对比各个核函数的优缺点
- SVM核函数如何选择
- 高斯核中的gamma参数的选择
- 介绍下Hinge Loss,怎么理解
- SVM怎么做多分类
- 介绍下SMO
LR逻辑斯蒂回归
- 简单介绍LR
- LR的优缺点
- LR的损失函数是什么
- sigmoid函数的优缺点
- sigmoid函数是怎么来的
- LR如何缓减过拟合
- 推导LR公式
- 似然函数是什么意思
- LR的正则项
- 为什么需要对数据归一化
- 介绍梯度下降
- 推导LR梯度下降的更新公式,写成矩阵形式
- 手写LR算法
- 为什么对LR做连续特征离散化效果会好
决策树
- 介绍信息熵、信息增益、信息增益比、基尼指数、交叉熵、相对熵
- 介绍ID3、C4.5、CART,区别及各自优缺点
- 为什么信息增益比与信息增益的区别
- 决策树如何缓减过拟合
- 预剪枝和后剪枝的流程
- 决策树怎么做多分类
- 决策树与随机森林的区别
- 决策树与GBDT的区别
- CART树是怎么做回归问题的
- CART树是怎么做特征选择,以及二元分割的
集成模型
- 介绍下有哪些集成模型
- 为什么集成模型对某些问题效果好
- 集成模型一定比单模型好吗
- 对比bagging与boosting
- 介绍boosting tree
- 介绍Adaboosting
- Adaboosting的损失函数是什么
- 介绍Gradient Boosting
- 介绍随机森林
- 随机森林怎么做回归问题?怎么做分类问题?
- 介绍GBDT
- 介绍XGBoost
- 手推XGBoost
- 介绍XGBoost的分裂方式
- 介绍XGBoost的打分函数
- XGBoost比一般的GBDT快的原因
- XGBoost怎么避免过拟合
- GBDT与XGBoost的区别
- GBDT与随机森林的区别
- 随机森林与bagging的区别
- 随机森林的优缺点
- 介绍下牛顿法
- 谈谈牛顿法与梯度下降的区别
- 谈谈拟牛顿法有哪几种方式
- 介绍比赛中用的模型融合方法
- 介绍stacking、emsemble
- 为什么模型融合效果会变好
正则项(规则化)
- 为什么加入正则项
- 为什么可以加入正则项
- 有哪些常用的正则项
- 介绍L1、L2的区别,推导L1、L2
- L1为什么会产生稀疏解?L2为什么是密集的
- L1在哪些场景会用到
- 介绍下lasso 回归和ridge 回归
- lasso怎么求解最优值
- L1怎么解决求导困难
- 描述下坐标下降法
- 介绍近端梯度下降
- 12.
聚类
- 介绍常用的聚类方法,和各自使用场景
- 介绍kmeans,及其优缺点
- kmeans中k值的选择
- kmeans初始聚类中心的初始化方法有哪些
- 手写kmeans算法
- 介绍层次聚类
- 层次聚类邻近比较有哪些方法
- 层次聚类的优缺点
- 基于密度的聚类方法介绍
- DBSCAN聚类介绍
- DBSCAN的优缺点
- DBSCAN与kmeans的对比
- 还有知道哪些聚类方法