机器学习简明教程

最新推荐文章于 2024-04-09 09:56:07 发布

架构师小秘圈

最新推荐文章于 2024-04-09 09:56:07 发布

阅读量542

点赞数

什么是机器学习？

机器学习是“人工智能的一个分支，它探索了让计算机根据经验提高绩效的方法”。——伯克利

下面我将为您讲解一些关于机器学习的内容，为我们以后奠定知识基础。

AI的分支：人工智能其中的一个分支，通过它，计算机及其系统能够成功完成通常需要人类智能行为的任务。机器学习是该过程的一部分。这是我们训练计算机完成上述任务的技术和过程。

探索方法：机器学习技术仍在不断涌现。一些用于训练计算机的模型已经被识别和使用（我们将在下面看到），但预计会随着时间的推移，会开发出更多模型。这里要记住的想法是，在训练计算机时可以使用不同的模型。不同的业务问题需要不同的模型。

让计算机提高性能：对于计算机来完成AI任务，它需要练习和改编。机器学习模型需要使用数据进行训练，并且在大多数情况下需要人工来帮助。

基于经验：向人工智能提供经验是另一种说法——向其提供数据。当更多的数据输入到系统中时，计算机就可以更准确地响应它和它将遇到的未来数据。更准确地理解数据意味着在提供预测性洞察时有更好的机会成功完成其给定的任务或提高其置信度。

举例：

输入数据与输入条件（例如信用卡交易）一起被选择和准备。
建立并训练机器学习算法以完成特定任务（例如，检测欺诈交易）。
训练数据用所需的输出信息进行扩充（例如，这些交易看起来是欺诈性的，而这些不是）。

640?wx_fmt=png

640?wx_fmt=jpeg

机器学习如何运作

640?wx_fmt=png

机器学习通常被称为魔法或黑盒子：

插入数据→魔术黑匣子→任务完成。

让我们来看看培训过程本身，以便更好地了解机器学习如何通过数据创造价值。

收集：机器学习取决于数据。第一步是确保您拥有正在尝试解决的问题所指示的正确数据。考虑您收集它的能力，来源，所需格式等。
清理：数据可以由不同的源生成，包含在不同的文件格式中，并以不同的语言表示。可能需要在数据集中添加或删除信息，因为某些实例可能缺少信息，而其他实例可能包含不需要的或不相关的条目。它的准备将影响其可用性和结果的可靠性。
拆分：根据数据集的大小，可能只需要一部分。这通常被称为抽样。从所选样本中，您的数据应分为两组：一组用于训练算法，另一组用于评估算法。
训练：这个阶段主要是为了找到准确完成所选目标的数学函数。根据所使用的模型类型，培训采用不同的形式。在简单的线性回归模型中拟合一条线可以看作是训练; 生成随机森林算法的决策树也是训练; 改变决策树中的问题有效地调整了模型的参数。为了简单起见，让我们关注神经网络。基本上，使用您的数据集的一部分，算法将尝试处理数据，测量其自身的性能并自动调整其参数（也称为反向传播），直到它能够以足够的可靠性始终如一地产生期望的结果。
评估：一旦算法在训练数据上表现良好，其性能将再次使用尚未见到的数据进行测量。需要时进行其他调整。此过程允许您防止过度拟合，这种情况发生在学习算法运行良好但仅与您的训练数据相关时。
优化：该模型针对目标应用程序内的集成进行了优化，以确保其尽可能轻量级。

不同的类型用于机器学习

640?wx_fmt=png

有许多不同的模型可用于机器学习，但它们通常分为三种不同类型的学习：监督，无监督和强化。根据要完成的任务，一些模型比其他模型更合适，性能更好。

监督学习：在这种类型的学习中，在训练模型时明确标记每个数据点的正确结果。这意味着学习算法在读取数据时已经给出了答案。它不是找到答案，而是寻找关系，以便在引入未分配的数据点时，可以正确地对它们进行分类或预测。

640?wx_fmt=png

学习算法可以例如馈送有历史信用卡交易，每个交易被标记为安全或可疑。它将学习这两个分类之间的关系，然后可以根据分类参数（例如购买地点，交易之间的时间等）适当地标记新交易。

640?wx_fmt=png

在数据点相对于彼此连续的上下文中，如股票的时间价格，回归学习算法可用于预测以下数据点。

640?wx_fmt=png

无监督学习：在这种情况下，学习算法在训练期间没有给出答案。其目标是在数据点之间找到有意义的关系。它的价值在于发现模式和相关性。例如，聚类是推荐系统中无监督学习的常见用法（例如，喜欢这瓶葡萄酒的人，也喜欢这种葡萄酒）。

640?wx_fmt=png

强化学习：这种类型的学习是有监督和无监督学习的结合。它通常用于解决更复杂的问题，并需要与环境进行交互。数据由环境提供，并允许代理响应和学习。在实践中，这范围从控制机器人手臂到找到最有效的电机组合，到机器人导航，其中可以通过碰撞到障碍物的负反馈来学习防撞行为。逻辑游戏也非常适合强化学习，因为它们传统上被定义为一系列决策：诸如扑克，步步高等游戏以及最近从Google获得AlphaGo的成功。强化学习的其他应用在物流，日程安排和任务的规划中很常见。

机器学习的用途

640?wx_fmt=png

机器学习开发的三个阶段及其在企业中的应用将被考虑：描述性，预测性和规范性。

描述性阶段是指记录和分析历史数据以增加商业智能。向管理者提供描述性信息，并更好地理解过去行动和决策的结果和后果。这个过程现在已成为全球大多数大型企业的常规工作 - 例如，审核销售记录并匹配促销活动，以了解其影响和投资回报率。

应用机器学习的第二阶段是预测。收集数据并使用它来预测特定结果可以提高反应性并更快，更准确地做出决策。例如，预测流失可以允许其预防。这一应用阶段目前正被大多数企业所接受。

然而，机器学习的第三个也是最先进的阶段已经被现有企业采用并且通过新成立的努力推进。在针对有效和高效的业务实践时，预测行为或结果是不够的。了解原因，动机和背景是最佳决策的先决条件。具体地说，当人和机器结合起来时，这个阶段是可能的。机器学习用于发现有意义的关系并预测结果，而数据专家则充当翻译者，以了解关系存在的原因。因此，可以更精确地规定动作。

此外，除了预测性洞察之外，我还将添加另一个机器学习应用程序：流程自动化。我提供了更详细的介绍和比较这两个概念在这里。

以下是机器学习可以解决的问题的一些示例。

物流和生产