最近遇到的问题，待整理

最新推荐文章于 2024-04-22 03:28:57 发布

onemorepoint

最新推荐文章于 2024-04-22 03:28:57 发布

阅读量151

点赞数

本文链接：https://blog.csdn.net/onemorepoint/article/details/86710568

版权

介绍在PE的产筛算法针对自己的项目，上采样，下采样如果适用？
自己项目中，Pandas处理样本数据量(百万级）
是否熟练适用sql，我回答说大部分是用的mongodb
是否适用过分布式图计算，大数据平台
t test 如何解释
显著性检验，P value 如何解释
回归算法的
用过哪些算法？（逻辑回归，树模型，模型调参gird_search是默认都会的）
线性回归（广义的线性回归了解过吗?）(可以参考https://blog.csdn.net/piaodexin/article/details/77477663）
PCA降维的原理（线性代数的本质角度去理解或者按照知乎的文章去理解，此处需要整理）
随机森林中的feature importance是如何计算出来的（可以参考 https://stats.stackexchange.com/questions/162162/relative-variable-importance-for-boosting，https://stackoverflow.com/questions/34218245/how-is-the-feature-score-importance-in-the-xgboost-package-calculated, https://www.cnblogs.com/xxiaolige/p/9234188.html ）
有没有了解过相应的计算方法？（我回答的按照gini系数或者信息增益，其实是分支的时候的特征选择）
随机森林中的随机体现在哪些方面？Bootstrap 取样的方式？
甲乙两人掷硬币，谁先掷硬币的正面谁赢，问甲先掷硬币赢得概率?
论文中算法的复现能力，主要是code能力
特征工程（http://www.cnblogs.com/jasonfreak/p/5448385.html）