概述
机器学习是计算机科学中最热门的话题之一。这是因为这个世界上每天涌入的数据是巨大的。由于每天都有如此多的数据出现,因此需要控制并从所述数据中生成见解。因此,许多方法正在世界范围内不断改进机器学习技术。
创建机器学习模型时最常见的问题之一是要处理大量变量。由于大多数真实世界的数据集不是以模型友好的方式处理的,因此我们大多数时候都需要处理和过滤掉我们的数据集。在大多数情况下,数据集中有许多自变量会让开发人员感到困难,因为我们对要选择哪些列感到困惑。
先决条件
为了充分利用本文,
- 读者必须熟悉机器学习中的自变量和因变量。
- 条件概率和样本空间等概率的基本概念必须清晰。
介绍
正如我们之前所讨论的,降维是机器学习工程师最常处理的问题之一。使用大量自变量不仅会增加我们计算模型的时间,而且还会增加机器学习模型的整体复杂性。PCA(主成分分析)和 t-SNE(t 分布随机邻域嵌入)等工具帮助我们减少整体变量,并帮助我们确定哪些变量对模型构建很重要。