最近遇到的问题,待整理
- 介绍在PE的产筛算法针对自己的项目,上采样,下采样如果适用?
- 自己项目中,Pandas处理样本数据量(百万级)
- 是否熟练适用sql,我回答说大部分是用的mongodb
- 是否适用过分布式图计算,大数据平台
- t test 如何解释
- 显著性检验,P value 如何解释
- 回归算法的
- 用过哪些算法?(逻辑回归,树模型,模型调参gird_search是默认都会的)
- 线性回归(广义的线性回归了解过吗?)(可以参考https://blog.csdn.net/piaodexin/article/details/77477663)
- PCA降维的原理(线性代数的本质角度去理解或者按照知乎的文章去理解,此处需要整理)
- 随机森林中的feature importance是如何计算出来的(可以参考 https://stats.stackexchange.com/questions/162162/relative-variable-importance-for-boosting,https://stackoverflow.com/questions/34218245/how-is-the-feature-score-importance-in-the-xgboost-package-calculated, https://www.cnblogs.com/xxiaolige/p/9234188.html )
- 有没有了解过相应的计算方法?(我回答的按照gini系数或者信息增益,其实是分支的时候的特征选择)
- 随机森林中的随机体现在哪些方面?Bootstrap 取样的方式?
- 甲乙两人掷硬币,谁先掷硬币的正面谁赢,问甲先掷硬币赢得概率?
- 论文中算法的复现能力,主要是code能力
- 特征工程(http://www.cnblogs.com/jasonfreak/p/5448385.html)