1.统计学习相关知识
模型、策略、算法、logistic、SVM、决策树、KNN及各种聚类方法
能写出核心伪代码和优化表达式、算法(梯度下降、牛顿法、随机搜索算法(基因、蚁群等))
2.hadoop、python
3.项目:ctr、搜索、广告、垃圾过滤、安全、推荐系统等
4.推荐:各类协同过滤的好与坏
5.LDA:共轭分布。
6.Top-N推荐问题
7.MapReduce模型
8.判别模型和生成模型
9.SVM的原理,SVM的核
10.K-means,如何用hadoop实现k-means
11.naive bayes和logistic regression的区别
12.LDA的原理和推导
13.广告点击率预测,用哪些数据什么算法
14.推荐系统的算法中最近邻和矩阵分解各自适用场景
15.用户流失率预测
16.数据结构算法水题+常用机器学习算法推导+模型调优细节+业务认识
17.Kmeans必须懂 ,KNN懂原理不用写, SVM、MR和Pagerank多看看
18.数据敏感性
19.代码算法:基本算法(如快排等,需要熟练掌握) + 剑指Offer(面试经常出相似的题) + LeetCode(剑指Offer的补充,增强动手能力)
20.机器学习:李航《统计学习方法》
21.没项目经验可以参加天猫大数据比赛和Kaggle比赛
22.svm em算法推导证明
23.决策树的模型很重要,GBDT,随机森林
- 线性回归的梯度下降和牛顿法求解公式的推导
25.贝叶斯分类器的优化和特殊情况的处理
26.top n
27.系统设计:热门微博排行榜
28.分布式的矩阵向量乘的算法
29.最速下降法和共轭梯度法 wolfe条件 最速下降法和共轭梯度法的收敛速度如何判断
30.约束优化的KKT条件
31.SVM的原理,SVM里面的核
32.K-means,如何用hadoop实现k-means
33.naive bayes和logistic regression的区别
34.LDA的原理和推导
34.做广告点击率预测,用哪些数据什么算法
36.推荐系统的算法中最近邻和矩阵分解各自适用场景
37.用户流失率预测怎么做(游戏公司的数据挖掘都喜欢问这个)
38.一个游戏的设计过程中该收集什么数据
39.如何从登陆日志中挖掘尽可能多的信息
40.HMM可以做语句分析优化
41.决策树的模型很重要,GBDT,随机森林。
42.如果有背景,item和cf协同过滤的优缺点,如何从计算公式证明,各种情况的惩罚,hadoop上mr的实现,包括各种情况的惩罚。
43.线性回归的梯度下降和牛顿法求解公式的推导
44.贝叶斯分类器的优化和特殊情况的处理
45.实现一个分布式的矩阵向量乘的算法。。。
46.最速下降法和共轭梯度法 wolfe条件 最速下降法和共轭梯度法的收敛速度如何判断。。。
两种方法的概念答上来了 wolfe条件没准备到 收敛速度大概回答了一下 我印象中只记得共轭梯度的误差估计了
47.约束优化的KKT条件 KKT条件在边界区域的搜索行为的物理意义是什么。。。
KKT条件ok 物理意义没答上来
48.实现一个分布式的topN算法。。。
49.为什么可以使用logistic回归。。。
50.你了解的机器学习算法有哪些。。。
51.选一个你熟悉的算法 详细推导公式过程。。。