新的算法很难产生,2022 年可能也不例外。然而,仍有一些机器学习算法和 Python 库将在未来更受欢迎。这些算法之所以与众不同,是因为它们包含了一些在其它算法中并不普遍的优点,我会在本文详细讨论这些优点。
无论是能够在你的模型中使用不同的数据类型,还是能够将内置算法整合到你当前公司的基础设施中,甚至是能够在一个地方比较几种算法的成功指标,你都可以预计,这些算法和库都会由于各种原因而在明年变得更受欢迎。下面,让我们更深入地了解一下 2022 年的一些新兴算法和库。
CatBoost
CatBoost 可能是最新的算法,因为它随着越来越流行而不断更新。这个机器学习算法对于处理分类数据的数据科学家特别有用。您可以考虑 Random Forest 和 XGBoost 算法的优点,CatBoost 具有它们的大部分优点,同时还具有更多其它的优点。
以下是 CatBoost 的主要优点:
-
无需担心参数调整——默认值通常会胜出,通常不值得手动调整,除非您想通过手动更改值来针对特定的异常分布
-
更准确——不太过拟合,并且当您使用更具分类性的特征时,往往会得到更准确的结果
-
快速——这种算法往往比其它基于树的算法更快,因为它不必担心用于示例的使用独热编码(one-hot encoding)的大型稀疏数据集,因为它使用了一种目标编码
-
更快地预测——您可以更快地训练,这样您也就可以更快地使用您的 CatBoost 模型进行预测
-
SHAP——这个库被集成,便于解释整体模型的特征重要性以及特定预测总的来说,CatBoost 非常棒,因为它易于使用、功能强大,在算法领域具有竞争力,并