微软面向初学者的机器学习课程：1.4-机器学习技术

最新推荐文章于 2024-03-19 09:31:30 发布

dotNET跨平台

最新推荐文章于 2024-03-19 09:31:30 发布

阅读量248

点赞数

文章标签：大数据算法编程语言 python 机器学习

原文链接：https://github.com/microsoft/ML-For-Beginners

版权

写在前面：最近在参与microsoft/ML-For-Beginners的翻译活动，欢迎有兴趣的朋友加入（https://github.com/microsoft/ML-For-Beginners/issues/71）

机器学习技术

构建、使用和维护机器学习模型及其使用的数据的过程与许多其他开发工作流程截然不同。在本课中，我们将揭开该过程的神秘面纱，并概述您需要了解的主要技术。您会：

在高层次上理解支持机器学习的过程。
探索基本概念，例如“模型”、“预测”和“训练数据”。

课前测验^[1]

介绍

在较高的层次上，创建机器学习（ML）过程的工艺包括许多步骤：

决定问题。大多数机器学习过程都是从提出一个简单的条件程序或基于规则的引擎无法回答的问题开始的。这些问题通常围绕基于数据集合的预测展开。
收集和准备数据。为了能够回答您的问题，您需要数据。数据的质量（有时是数量）将决定您回答最初问题的能力。可视化数据是这个阶段的一个重要方面。此阶段还包括将数据拆分为训练和测试组以构建模型。
选择一种训练方法。根据您的问题和数据的性质，您需要选择如何训练模型以最好地反映您的数据并对其进行准确预测。这是您的ML过程的一部分，需要特定的专业知识，并且通常需要大量的实验。
训练模型。使用您的训练数据，您将使用各种算法来训练模型以识别数据中的模式。该模型可能会利用可以调整的内部权重来使数据的某些部分优于其他部分，从而构建更好的模型。
评估模型。您使用收集到的集合中从未见过的数据（您的测试数据）来查看模型的性能。
参数调整。根据模型的性能，您可以使用不同的参数或变量重做该过程，这些参数或变量控制用于训练模型的算法的行为。
预测。使用新输入来测试模型的准确性。

要问什么问题

计算机特别擅长发现数据中的隐藏模式。此实用程序对于对给定领域有疑问的研究人员非常有帮助，这些问题无法通过创建基于条件的规则引擎来轻松回答。例如，给定一项精算任务，数据科学家可能能够围绕吸烟者与非吸烟者的死亡率构建手工规则。

然而，当将许多其他变量纳入等式时，ML模型可能会更有效地根据过去的健康史预测未来的死亡率。一个更令人愉快的例子可能是根据包括纬度、经度、气候变化、与海洋的接近程度、急流模式等在内的数据对给定位置的4月份进行天气预报。

✅ 这个关于天气模型的幻灯片^[2]为在天气分析中使用机器学习提供了一个历史视角。

预构建任务

在开始构建模型之前，您需要完成多项任务。要测试您的问题并根据模型的预测形成假设，您需要识别和配置多个元素。

Data

为了能够确定地回答您的问题，您需要大量正确类型的数据。此时您需要做两件事：

收集数据。记住之前关于数据分析公平性的课程，小心收集数据。请注意此数据的来源、它可能具有的任何固有偏见，并记录其来源。
准备数据。数据准备过程有几个步骤。如果数据来自不同的来源，您可能需要整理数据并对其进行标准化。您可以通过各种方法提高数据的质量和数量，例如将字符串转换为数字（就像我们在聚类^[3]中所做的那样）。您还可以根据原始数据生成新数据（正如我们在分类^[4]中所做的那样）。您可以清理和编辑数据（就像我们在 Web App^[5]课程之前所做的那样）。最后，您可能还需要对其进行随机化和打乱，具体取决于您的训练技术。

✅ 在收集和处理您的数据后，花点时间看看它的形状是否能让您解决您的预期问题。正如我们在聚类^[6]课程中发现的那样，数据可能在您的给定任务中表现不佳！

选择特征变量

特征^[7]是数据的可衡量属性。在许多数据集中，它表示为列标题，如“日期”、“大小”或“颜色”。您的特征变量（通常在代码中表示为y）代表您试图对数据提出的问题的答案：在12月，哪种颜色的南瓜最便宜？在旧金山，哪些街区的房地产价格最好？

???? 特征选择和特征提取构建模型时如何知道选择哪个变量？您可能会经历一个特征选择或特征提取的过程，以便为性能最好的模型选择正确的变量。然而，它们不是一回事：“特征提取是从基于原始特征的函数中创建新特征，而特征选择返回特征的一个子集。”（来源^[8]）

可视化数据

数据科学家工具包的一个重要方面是能够使用多个优秀的库（例如 Seaborn 或 MatPlotLib）将数据可视化。直观地表示您的数据可能会让您发现可以利用的隐藏关联。您的可视化还可以帮助您发现偏见或不平衡的数据（正如我们在分类^[9]中发现的那样）。

拆分数据集

在训练之前，您需要将数据集拆分为两个或多个大小不等但仍能很好地代表数据的部分。

训练。这部分数据集适合您的模型进行训练。这个集合构成了原始数据集的大部分。
测试。测试数据集是一组独立的数据，通常从原始数据中收集，用于确认构建模型的性能。
验证。验证集是一个较小的独立示例组，用于调整模型的超参数或架构，以改进模型。根据您的数据大小和您提出的问题，您可能不需要构建第三组（正如我们在时间序列预测^[10]中所述）。

建立模型

使用您的训练数据，您的目标是构建模型或数据的统计表示，并使用各种算法对其进行训练。训练模型将其暴露给数据，并允许它对其发现、验证和接受或拒绝的感知模式做出假设。

决定一种训练方法

根据您的问题和数据的性质，您将选择一种方法来训练它。逐步完成 Scikit-learn的文档^[11] - 我们在本课程中使用 - 您可以探索多种训练模型的方法。根据您的经验，您可能需要尝试多种不同的方法来构建最佳模型。您可能会经历一个过程，在该过程中，数据科学家通过提供未见过的数据来评估模型的性能，检查准确性、偏差和其他降低质量的问题，并为手头的任务选择最合适的训练方法。