一文梳理数据科学家必备核心算法与常用模型

最新推荐文章于 2024-06-29 22:42:34 发布

「已注销」

最新推荐文章于 2024-06-29 22:42:34 发布

阅读量1.4k

点赞数

640?wx_fmt=png&wxfrom=5&wx_lazy=1

来源：数据科学DataScience

作者：Colleen M. F.

本文为你盘点数据科学家必备的核心机器学习算法和常用统计模型。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

核心算法

回归/分类树
降维（PCA、MDS、tSNE等）
经典的前馈神经网络
Bagging ensembles方法（随机森林、KN N回归集成）
Boostingensembles方法（梯度提升、XGBoost算法）
参数调整或设计方案的优化算法（遗传算法，量子启发式演化算法，模拟退火/simulated annealing，粒子群优化/ particle-swarm optimization）
拓扑数据分析工具，特别适用于小样本量的无监督学习（持续同调/persistent homology，Morse-Smale聚类，Mapper ...）
深度学习架构（通用深度学习架构）
用于局部建模的KNN方法（回归，分类）
基于梯度的优化方法/Gradient-based optimization methods
网络度量/Network metrics和算法（中心度量，跳数，多样性，熵，拉普拉斯算子，疫情传播/epidemic spread，谱聚类/spectral clustering）
深层架构中的卷积和池化层/pooling layers（特别适用于计算机视觉和图像分类模型）
分层聚类（与k均值聚类和拓扑数据分析工具相关）
贝叶斯网络（路径挖掘/pathway mining）
复杂性和动态系统（与微分方程有关）

此外，部分领域还可能需要与自然语言处理、计算机视觉相关算法。

640?wx_fmt=jpeg

常用模型

广义线性模型（是多数监督机器学习方法的基础，如逻辑回归和Tweedie回归）
时间序列方法（ARIMA，SSA，基于机器学习的方法）
结构方程建模（针对潜变量之间关系进行建模）
因子分析（调查设计和验证的探索型分析）
功效分析/试验设计（特别是基于仿真的试验设计，以避免分析过度）
非参数检验（MCMC）
K均值聚类
贝叶斯方法（朴素贝叶斯，贝叶斯模型平均/Bayesian model averaging，贝叶斯适应性试验/Bayesian adaptive trials等）
惩罚性回归模型（弹性网络/Elastic Net，LASSO，LARS ...）以及对通用模型（SVM，XGBoost ...）加罚分，这对于预测变量多于观测值的数据集很有用,在基因组学和社会科学研究中较为常用）
样条模型/Spline-based models(MARS等）：主要用于流程建模
马尔可夫链和随机过程（时间序列建模和预测建模的替代方法）
缺失数据插补方法及其假设（missForest，MICE ...）
生存分析/Survival analysis（主要特点是考虑了每个观测出现某一结局的时间长短）
混合建模/Mixture modeling
统计推断和组群测试（A/B测试以及用于营销活动的更复杂的方法）