机器学习-数据挖掘-千千问------更新时间 2018.3.23

问项目

  1. 谈谈你最熟的或者做的时间最长的项目
  2. 描述项目解决的问题
  3. 描述数据挖掘竞赛解决的问题
  4. 描述对问题的分析
  5. 描述解决方案的流程,数据挖掘的流程
  6. 怎么做特征工程的
    1. 数据预处理的方法有哪些
      1. 归一化标准化方法有哪些
      2. 对缺失值处理方法有哪些
    2. 对项目的数据做了哪些处理
    3. 怎么提取特征的,提取特征的方法
    4. 提取了多少特征,特征的维度,哪些特征比较好
    5. 对特征的评估方法是什么,怎么判断其好坏
  7. 用了什么模型
    1. 为什么用这个模型
    2. 介绍这些模型
    3. 模型的评估方法
      1. 分类模型评估方法有哪些
      2. 回归模型评估方法
    4. 项目中用了哪些评估方法
    5. 模型这些评估最优值是多少,AUC,召回率,精确率等
    6. 模型有哪些不足,哪里可以改进
  8. 项目最终的结果咋样
  9. 项目可以改进的地方,项目的缺点
  10. 做这个项目看了哪些论文,有哪些前沿的方法

问知识广度

  1. 什么是判别模型,什么是生成模型,并举例
  2. 谈谈你对VC维的认识
  3. 谈谈你对核函数的认识
  4. 说说你知道的损失函数有哪些
  5. 谈谈模型最优化方法有哪些
  6. 解释方差、误差、噪声
  7. 如何处理有序变量?如何处理无序变量?
  8. 遇到稀疏值怎么办
  9. 如何进行特征选择?如何进行数据压缩?
  10. 什么是欠拟合与过拟合?如何应对这两种情况?
  11. 方差、误差与欠拟合与过拟合的关系
  12. 正则项(规则化)在模型中的作用和原理。
  13. 评估模型一般有什么手段
  14. 介绍ROC、AUC、F1、召回率等
  15. 模型选择有哪些方法
  16. 数据不均衡的评估方法?正负样本不平衡怎么解决?
  17. 知道哪些模型融合的方法?
  18. 模型融合为什么有效果?
  19. 怎么看待机器学习和深度学习
  20. 知道半监督学习吗
  21. 对广告搜索,推荐系统有了解吗
  22. 说说时间序列分析
  23. 对自然语言处理呢

问算法

SVM

  1. 简单介绍SVM
  2. SVM相比LR有什么联系和区别
  3. SVM为什么需要最大间隔
  4. SVM中的w与规则化有什么联系
  5. SVM对过拟合怎么处理的
  6. SVM的推导
  7. 原始问题是怎么来的
  8. 原始问题为什么需要转化为对偶问题求解
  9. 原始问题为什么可以转化为对偶问题求解
  10. 求解对偶问题时的KKT条件分别是什么意思
  11. SVM为什么引入松弛变量
  12. 松弛变量的作用
  13. 松弛变量参数C越大,越过拟合?
  14. SVM为什么引入核函数?
  15. 为什么可以引入核函数?
  16. 有哪些常用的核函数?对比各个核函数的优缺点
  17. SVM核函数如何选择
  18. 高斯核中的gamma参数的选择
  19. 介绍下Hinge Loss,怎么理解
  20. SVM怎么做多分类
  21. 介绍下SMO

LR逻辑斯蒂回归

  1. 简单介绍LR
  2. LR的优缺点
  3. LR的损失函数是什么
  4. sigmoid函数的优缺点
  5. sigmoid函数是怎么来的
  6. LR如何缓减过拟合
  7. 推导LR公式
  8. 似然函数是什么意思
  9. LR的正则项
  10. 为什么需要对数据归一化
  11. 介绍梯度下降
  12. 推导LR梯度下降的更新公式,写成矩阵形式
  13. 手写LR算法
  14. 为什么对LR做连续特征离散化效果会好

决策树

  1. 介绍信息熵、信息增益、信息增益比、基尼指数、交叉熵、相对熵
  2. 介绍ID3、C4.5、CART,区别及各自优缺点
  3. 为什么信息增益比与信息增益的区别
  4. 决策树如何缓减过拟合
  5. 预剪枝和后剪枝的流程
  6. 决策树怎么做多分类
  7. 决策树与随机森林的区别
  8. 决策树与GBDT的区别
  9. CART树是怎么做回归问题的
  10. CART树是怎么做特征选择,以及二元分割的

集成模型

  1. 介绍下有哪些集成模型
  2. 为什么集成模型对某些问题效果好
  3. 集成模型一定比单模型好吗
  4. 对比bagging与boosting
  5. 介绍boosting tree
  6. 介绍Adaboosting
  7. Adaboosting的损失函数是什么
  8. 介绍Gradient Boosting
  9. 介绍随机森林
  10. 随机森林怎么做回归问题?怎么做分类问题?
  11. 介绍GBDT
  12. 介绍XGBoost
  13. 手推XGBoost
  14. 介绍XGBoost的分裂方式
  15. 介绍XGBoost的打分函数
  16. XGBoost比一般的GBDT快的原因
  17. XGBoost怎么避免过拟合
  18. GBDT与XGBoost的区别
  19. GBDT与随机森林的区别
  20. 随机森林与bagging的区别
  21. 随机森林的优缺点
  22. 介绍下牛顿法
  23. 谈谈牛顿法与梯度下降的区别
  24. 谈谈拟牛顿法有哪几种方式
  25. 介绍比赛中用的模型融合方法
  26. 介绍stacking、emsemble
  27. 为什么模型融合效果会变好

正则项(规则化)

  1. 为什么加入正则项
  2. 为什么可以加入正则项
  3. 有哪些常用的正则项
  4. 介绍L1、L2的区别,推导L1、L2
  5. L1为什么会产生稀疏解?L2为什么是密集的
  6. L1在哪些场景会用到
  7. 介绍下lasso 回归和ridge 回归
  8. lasso怎么求解最优值
  9. L1怎么解决求导困难
  10. 描述下坐标下降法
  11. 介绍近端梯度下降
  12. 12.

聚类

  1. 介绍常用的聚类方法,和各自使用场景
  2. 介绍kmeans,及其优缺点
  3. kmeans中k值的选择
  4. kmeans初始聚类中心的初始化方法有哪些
  5. 手写kmeans算法
  6. 介绍层次聚类
  7. 层次聚类邻近比较有哪些方法
  8. 层次聚类的优缺点
  9. 基于密度的聚类方法介绍
  10. DBSCAN聚类介绍
  11. DBSCAN的优缺点
  12. DBSCAN与kmeans的对比
  13. 还有知道哪些聚类方法
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值