深度学习算法和机器学习算法_机器学习算法说明

最新推荐文章于 2024-08-06 17:43:31 发布

cxq8989

最新推荐文章于 2024-08-06 17:43:31 发布

阅读量576

点赞数

文章标签：算法大数据 python 神经网络机器学习

原文链接：https://www.infoworld.com/article/3394399/machine-learning-algorithms-explained.html

版权

本文详细介绍了机器学习的基本概念、工作原理、监督与无监督学习，以及数据清理、编码和规范化等预处理步骤。重点讨论了各种常见的机器学习算法，如线性回归、逻辑回归、决策树等，并提到了超参数调整和自动化机器学习的重要性。深度学习虽不在通用算法之列，但在特定问题如图像分类、语音识别上表现突出，但通常需要更多计算资源。

摘要由CSDN通过智能技术生成

深度学习算法和机器学习算法

机器学习和深度学习已被广泛接受，甚至更广泛地被误解了。在本文中，我想退一步并从基本的角度解释机器学习和深度学习，讨论一些最常见的机器学习算法，并解释这些算法与创建预测模型的其他难题之间的关系从历史数据。

什么是机器学习算法？

回想一下，机器学习是一类用于根据数据自动创建模型的方法。机器学习算法是机器学习的引擎，这意味着它将数据集转换为模型的算法。哪种算法效果最好（有监督，无监督，分类，回归等）取决于您要解决的问题的类型，可用的计算资源以及数据的性质。

[理解机器学习：人工智能，机器学习和深度学习：您需要知道的一切。 | 机器学习的解释。 | 机器学习算法的解释。 | 软件工程师的机器学习技能。 ]

机器学习的工作原理

普通的编程算法以简单的方式告诉计算机要做什么。例如，排序算法将无序数据转换为按某些条件排序的数据，通常是数据中一个或多个字段的数字或字母顺序。

线性回归算法通常通过执行矩阵求逆以最小化直线和数据之间的平方误差，来将直线或参数多项式线性的另一个函数（例如多项式）拟合到数值数据。使用平方误差作为度量标准，因为您不必担心回归线是在数据点之上还是之下。您只关心线与点之间的距离。

非线性回归算法要使参数参数不是线性的曲线拟合到数据 ，因此稍微复杂一点，因为与线性回归问题不同，它们无法使用确定性方法求解。取而代之的是，非线性回归算法实现了某种迭代的最小化过程，通常是对最速下降方法进行一些修改。

最陡下降原理基本上是计算当前参数值的平方误差及其梯度，选择步长（又称学习率），遵循“下山”梯度的方向，然后在新的位置重新计算平方误差及其梯度。参数值。最终，运气很好，过程收敛了。最速下降的变体试图改善收敛性。

机器学习算法甚至比非线性回归简单得多，部分原因是机器学习省去了适合特定数学函数（例如多项式）的约束。机器学习通常可以解决两大类问题：回归和分类。回归用于数字数据（例如，具有给定地址和专业的某人的可能收入是多少？），分类用于非数字数据（例如，申请人是否会拖欠这笔贷款？）。

预测问题（例如，明天微软股票的开盘价是多少？）是时间序列数据的回归问题的子集。分类问题有时分为两类（是或否）和多类问题（动物，植物或矿物质）。

监督学习与无监督学习

与这些划分无关，还有另外两种机器学习算法：有监督的和无监督的。在监督学习中 ，您将为训练数据集提供答案，例如一组动物图片以及动物名称。该训练的目标是建立一个模型，该模型可以正确识别以前未见过的（训练集中包含的一种动物的）图片。

在无监督学习中 ，该算法会遍历数据本身并尝试得出有意义的结果。结果可能是，例如，可能在每个群集内相关的一组数据点的群集。当群集不重叠时，效果更好。

培训和评估可以通过优化监督学习算法的参数来找到最适合您数据基础知识的一组值，从而将监督学习算法转变为模型。这些算法的优化程序通常依赖于最速下降的变体，例如随机梯度下降（SGD），它实际上是从随机起始点执行多次的最速下降。对SGD的常见改进增加了一些因素，这些因素可以根据动量来校正梯度的方向，或者根据从一次遍历到另一次遍历的进度来调整学习率。

机器学习的数据清理

野外没有干净的数据。为了对机器学习有用，必须积极过滤数据。例如，您将要：

查看数据，并排除所有缺少大量数据的列。
再次查看数据，然后选择要用于预测的列。（这是您可能需要在迭代时进行更改的东西。）
在其余列中排除仍缺少数据的任何行。
纠正明显的错别字并合并等效答案。例如，美国，美国，美国和美国应合并为一个类别。
排除数据超出范围的行。例如，如果要分析纽约市内的出租车行程，则需要过滤出市区外边界以外的上下车纬度和经度行。

您可以做更多的事情，但这取决于收集的数据。这可能很乏味，但是如果您在机器学习管道中设置了数据清理步骤，则可以随意修改并重复进行。

机器学习的数据编码和规范化

要将分类数据用于机器分类，您需要将文本标签编码为另一种形式。有两种常见的编码。

一种是标签编码 ，这意味着每个文本标签值都用数字代替。另一种是一键编码 ，这意味着每个文本标签值都将变成具有二进制值（1或0）的列。大多数机器学习框架都具有为您进行转换的功能。通常，单热编码是首选，因为标签编码有时会使机器学习算法混淆，以为编码列是有序的。

要将数字数据用于机器回归，通常需要将数据标准化。否则，范围较大的数字可能趋于主导特征向量之间的欧几里得距离，它们的影响可能会以其他场为代价被放大，并且最陡的下降优化可能会难以收敛。有很多方法可以对ML数据进行标准化和标准化，包括最小-最大标准化，均值标准化，标准化和缩放到单位长度。此过程通常称为特征缩放 。

机器学习功能是什么？

由于我在上一节中提到了特征向量，因此我应该解释一下它们是什么。首先，特征是观察到的现象的单个可测量属性或特征。 “特征”的概念与解释变量的概念有关，该解释变量在诸如线性回归之类的统计技术中使用。特征向量将单行的所有特征组合为数值向量。

选择特征的部分技巧是选择最少的一组自变量来解释问题。如果两个变量高度相关，则要么需要将它们组合为一个特征，要么应将其删除。有时人们进行主成分分析以将相关变量转换为一组线性不相关变量。

人们用来构造新特征或降低特征向量维数的一些转换很简单。例如，从Year of Death Year of Birth减去Year of Birth Year of Death然后构建Age at Death ，这是生命周期和死亡率分析的主要自变量。在其他情况下， 特征构造可能不是那么明显。