上一篇我们介绍了数据分析师必须知道的十大算法的其中5种,那么今天我们就接着来了解剩下的5种算法:
6.支持向量机(SVM)
支持向量机或支持向量机属于监督型机器学习算法的类别,可在分类和回归问题中找到应用。
它最常用于问题分类,并通过使用超平面对数据点进行分类。
数据分析算法的第一步涉及将所有数据项绘制为n维图形中的单个点。
在此,n是特征的数量,每个单个特征的值是特定坐标的值。
然后,我们找到了最能区分这两个类别以对其进行分类的超平面。
找到正确的超平面在分类中起着最重要的作用。
最接近分离超平面的数据点是支持向量。
让我们考虑以下示例,以了解如何识别正确的超平面。
选择最佳超平面的基本原理是,必须选择能很好地将两个类别分开的超平面。
在这种情况下,超平面B很好地对数据点进行了分类。因此,B将是正确的超平面。
所有三个超平面正确地将这两个类别分隔开。
在这种情况下,我们必须选择具有最大余量的超平面。
如上图所示,超平面B具有最大的余量,因此它将是正确的超平面。
在这种情况下,超平面B具有最大的余量,但没有准确地对这两个类别进行分类。
因此,A将是正确的超平面。
- K均值聚类
K均值聚类是一种无监督的机器学习算法,聚类基本上是指将数据集分为称为聚类的相似数据项组。K表示聚类将数据项分为具有相似数据项的k个组。
为了测量这种相似性,我们使用欧几里德距离,由
D =√(x1-x2)^ 2 +(y1-y2)^ 2
K表示聚类本质上是迭代的。
该算法遵循的基本步骤如下:
首先,我们选择k的值,该值等于我们要将数据分类到的簇的数量。然后,我们将随机中心值分配给这k个群集中的每一个。现在,我们开始使用欧几里得距离公式搜索到聚类中心最近的数据点。在下一步中,我们计算分配给每个聚类的数据点的平均值。再次,我们搜索到新创建的中心的最近数据点,并将它们分配给它们最近的聚类。
我们将继续重复上述步骤,直到分配给k个群集的数据点没有变化为止。
8.主成分分析(PCA)
PCA基本上是一种用于对数据集进行降维处理而对数据集的方差影响最小的技术。这意味着删除多余的功能,但保留重要的功能。为此,PCA将数据集的变量转换为一组新的变量。
这组新的变量代表主要成分。
这些主要组件的最重要特征是:
所有PC都是正交的(即它们彼此成直角)、它们的创建方式是随着组件数量的增加,保留的变化量开始减少。
这意味着与原始变量相比,第一主成分最大程度地保留了变化。PCA基本上用于汇总数据。在处理数据集时,可能会有一些彼此相关的功能。因此,PCA可以帮助我们减少此类功能并使用较少的功能进行预测,而不会影响准确性。
例如,考虑下图,其中我们将3D空间缩小为2D空间。
9.神经网络
神经网络也称为人工神经网络,我们可以通过一个例子来进一步了解:
识别上面图像中写出的数字对于人类来说是一项非常容易的任务。
这是因为我们的大脑包含数百万个神经元,它们可以执行复杂的计算以立即识别任何视觉。
但是对于机器而言,这是一项非常困难的任务。
神经网络通过大量训练机器来解决这个问题。
这样,机器会自动从数据中学习以识别各种数字。
因此,我们可以说神经网络是数据分析算法,可以使机器以与人脑相同的方式识别各种模式。
10.随机森林
随机森林克服了决策树的过拟合问题,并有助于解决分类和回归问题。
它按照集成学习的原理工作。
Ensemble学习方法认为,许多弱学习者可以一起工作,以提供高精度的预测。
随机森林的运作方式非常相似。
它考虑了为给出最终结果而对大量单个决策树的预测。
它计算不同决策树的预测的投票数,而投票数最大的预测将成为模型的预测。
让我们通过一个例子来理解这一点:
在上图中,有两个类别标记为A和B。
在由7个决策树组成的随机森林中,有3个投票给A类,4个投票给B类。
由于B类获得了最高票数,因此模型的预测将为B类。
概括
我们对数据分析师中的一些最流行的数据分析算法进行了基本介绍。它们是各种数据分析工具,也可以帮助数据分析师处理和分析大量数据。这些数据分析工具和算法可帮助数据分析师们解决各种数据分析问题,从而制定更好的策略。