机器学习算法基础概念总结

最新推荐文章于 2021-05-27 22:17:29 发布

ALVANAN

最新推荐文章于 2021-05-27 22:17:29 发布

阅读量658

点赞数

分类专栏：机器学习文章标签：机器学习

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1. 基础概念

（1） 10折交叉验证（10-fold cross-validation）

用来测试算法的准确性。常用的测试方法。将数据集分成10份。轮流将其中的9份作为训练数据集，1份作为测试数据，进行试验，每次试验都会得到相应的正确率（或差错率）。10次结果的正确率（或差错率）的平均值作为对算法精度的估计，一般还需要进行多次10折交叉验证，再求平均值，对算法的准确性进行估计。

（2）PCA主成分分析

优点：降低数据的复杂性，识别最重要的多个特征。

缺点：不一定需要，且可能损失有用的信息。

适用类型：数值型数据

技术类型：降维技术

在PCA中，数据从原来的坐标系转换到新的坐标系，新坐标系的选择是由数据本身决定的，第一个新坐标轴选择原始数据中方差最大的方向，第二个新坐标轴的选择和第一个坐标轴正交且具有最大方差的方向。该过程一直重复，重复次数为原始数据中特征的数目。会发现大部分方差都包含在最前面的几个新坐标轴中。因此可以忽略余下的坐标轴，即对数据进行了降维处理。除了PCA主成分分析技术，其他的降维技术还有ICA（独立成分分析），因子分析。

（3）分类器组合：将不同的分类器组合起来，而这种组合结果则被称为集成方法（ensemble method），或者元算法（meta-algorithm）。

（4）回归算法和分类算法很像，但是回归算法和分类算法在输出标称类别值不同，回归方法会预测出一个连续的值，分类只能预测类别。

（5）SVD（singular value decomposition）奇异值分解

优点：简化数据，去除噪声，提高算法的结果

缺点：数据转化可能难以理解

使用数据类型：数值型数据

SVD是矩阵分解的一种数据类型。SVD是一种强大的降维工具，我们可以利用SVD来逼近矩阵并从中提取重要特征。通过保留矩阵80%~90%的能量，就可以得到重要的特征并去掉噪声。SVD已经运用到多个应用中，其中一个成功的应用案例就是推荐引擎。推荐引擎将物品推荐给用户，协同过滤则是一种基于用户喜好和行为数据的推荐和实现方法。协同过滤的核心是相似度计算方法，有很多相似度计算方法都可以应用于计算物品壶用户之间的相似度。通过在低位空间计算相似度，SVD提高了推荐引擎的效果。

（9）共线性

是指线性回归模型中的解释变量之间犹豫存在精确的相关关系或者高度相关关系而使模型估计失真或难以估计。

2. 基础算法

（1）logistic回归

优点：计算代价不高，易于理解和实现

缺点：容易欠拟合，分类精度可能不高

适用数据类型：数值型和标称型数据

类别：分类算法

使用场景：解决二分类问题

Logistic回归算法基于Sigmoid函数，或者说Sigmoid就是逻辑回归函数。Sigmoid函数定义如下：1/(1+exp(-z))。函数值域范围是（0,1）。

逻辑回归模型分解如下：

（1）首先将不同维度属性值和对应的一组权重加和：公式如下

z=w0+w1*x1+...+wm*xm。（x1,x2,..,xm是样本数据的各个特征，维度为m）。这里是一个线型回归。w权重值就是需要经过训练学习得到的数值，具体w向量的求解，就需要用到极大似然估计和将似然估计函数带去到优化算法来求解。最常用的最优化算法有梯度上升法。由此可见，逻辑回归函数虽然是一个非线性的函数，但其实其去除Sigmoid映射函数之后，其他步骤都和线型回归一致。

（2）然后将上述的线性目标函数z带入到Sigmoid逻辑回归函数，可以得到值域为（0,0.5）和（0.5,1）两类之。等于0.5的处理可以自己定。这样其实就得到了2分类数据，也体现了2分类的概念。

logistic回归的目的是寻找一个非线性函数Sigmoid的最佳拟合参数，参数在求解过程中可以有最优化算法来完成。在最有化算法，最常用的就是梯度上升法，该算法可以简化为随机梯度上升法。

（2）SVM（soupport vector machine）支持向量机

优点：泛化错误率第，计算开销不打，结果易解释

缺点：对参数调节和核函数的选择敏感，原始分类器不加修饰仅适用于处理二分类问题

适用数据类型：数值型和标称型数据

类别：分类算法

使用场景：解决二分类问题

（3）决策树

优点：计算复杂度不高，输出结果易于理解，对中间值的确实不敏感，可以处理不相关的特征数据。

缺点：可能会产生匹配过度的问题。

算法类型:分类算法

数据要求：树的构造只适用于标称型的数据，数值型的数据必须离散化

在构造决策树时，需要解决的第一个问题就是，当前数据集上那个儿疼正在划分数据分类时起决定性作用。

决策树生成步骤简述如下（也有别的生成决策树的步骤）：

a. 根据给定的训练数据根据熵最大原则根据每一个维度来划分数据集，找到最关键的维度。

b.当某个分之下所有的数据都属于同一分类规则终止划分并返回类标签，否则在此分支上重复实施过程a

c.以此计算就将类标签构建成了一颗决策树

d.依靠训练数据构造了决策树之后，就可以将它用于实际的数据分类。

（4）朴素贝叶斯

优点：在数据较少的情况下仍然有效，可以处理多分类问题。

缺点：对于输入数据的准备方式较为敏感。

适用数据类型：标称型数据

朴素贝叶斯是贝叶斯理论的一部分，贝叶斯决策理论的核心思想，及选择具有高概率的决策。朴素贝叶斯的两个假设

每个特征之间相互独立
每个特征同等重要

（5）K-近邻算法（KNN）

优点：精度高，对异常值不敏感，五数据输入假定

缺点：计算复杂度高，空间复杂度高

适用数据类型：标称型数据和数值型

算法分类：分类算法

算法原理简述：存在一个样本数据集，并且样本集中每个数据都存在标签，即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征和样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据的分类标签。一般来说，只选择样本数据集中前k个最相似的数据，这就是k-近邻算法只能够k的出处，通常k是不大于20 的证书。最后选择k个最相似数据中出现的次数最多的分类，作为新的数据分类。

（6）线型回归（Linear Regression）

优点：结果已于理解，计算上不复杂

缺点：对非线性数据拟合不好

适用数据类型：标称型数据和数值型

算法类型：回归算法

在统计学中，线性回归是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归，大于一个自变量的情况叫做多元回归。

岭回归（ridge regression）：是一种专用于共线性数据分析的有偏估计回归方法，实际上是一种改良的最小二乘估计法，通过房企最小二乘法的无偏性，以损失部分信息、降低精度为代价，获得回归系数更为符合实际、更可靠的回归方法，对病态数据的耐受性远远强于最小二乘法。

岭回归分析法是从根本上消除复共线性影响的统计方法

总结：与分类一样，回归也是预测目标值的过程。回归于分类的不同点在于，前者预测连续型变量，后者预测离散变量。在回归方程里，求得特征对应的最佳回归系统的方法是最小化误差的平方和。

（7）树回归

优点：可以对复杂和非线性的数据建模

缺点：结果不易理解

适用数据类型：标称型数据和数值型

算法类型：回归算法

线性回归方法可以有效的拟合所有样本点（局部加权线性回归除外）。当数据用于众多特征并且特征之间关系十分复杂时，构建全局模型的回归算法是比较困难的。此外实际中很多问题为非线性的，例如分段函数，不可能用全局线性模型进行拟合。树回归将数据集切分成多份易建模的数据，然后利用线性回归进行建模和拟合。较为经典的树回归算法为CART（classification andregression trees）

（8）K-Means算法

优点：容易实现

缺点：可能收敛到局部最小值，在大规模数据集上收敛较慢

适用数据类型：数值型

算法类型：聚类算法

K-Means算法属于非监督学习算法。

K-Means算法的基本步骤：

（1）从数据对象中随机的初始化K个初始点作为质心。然后将数据集中的每个点分配到一个簇中，具体来讲每个点找到距其最近的质心，并将其分配给质心所对应的簇

（2）计算每个簇中样本的均值，然后用均值更新该簇的质心。然后划分簇结点。

（3）反复迭代（2）过程，当簇对象不再发生变化时，或者误差在评测函数预估的范围时，停止迭代。

算法的时间复杂度为O(nkt)，t为迭代次数。

注意：出世之心的选取以及距离计算公式的好坏，将影响到算法的整体性能。

（9）算法关联分析

频繁项集（frequent item sets）：经常出现在一块的物品的集合。

关联规则（association rules）：按时两种物品间可能存在很强的关系。

项集的支持度（support）：数据集中包含该项记录所占的比例。

关联分析的目标包括两项：发现频繁项集和发现关联规则，首先找到频繁项集，然后才能得到关联规则

Aprior算法：

优点：易编码实现

缺点：在大型数据集上可能较慢。

适用数据类型：数值型或标称型数据

原理：如果某个项集是频繁项集，那么他的所有子集也是频繁项集

FP-growth

优点：一般要快于Aprior算法

缺点：实现比较困难，在某些数据集上性能会下降。

适用数据类型：标称型数据

该算法也是用于发现频繁项集的算法，以FP树的结构存储构件元素，其他Aprior算法的性能要好很多。发现频繁项集的过程如下：（1）构建FP树（2）从FP树种挖掘频繁项集

FP-growth算法利用Aprior原则，执行更快。AP弱弱算法产生候选项集，然后扫描数据库来检查他们是否频繁。由于只对数据库扫描两次，因此 FP-growth算法执行更快。在FP-growth算法中，数据集存储在一个称为FP树的结构中。FP书构建完成后，可以通过查找元素项的条件以及FP树来发现频繁项集，该过程不断以更多元素作为条件重复进行，直到FP树只包含一个元素为止。