机器学习算法梳理

最新推荐文章于 2024-04-19 09:42:04 发布

鲁班实验室

最新推荐文章于 2024-04-19 09:42:04 发布

阅读量317

点赞数

本文链接：https://blog.csdn.net/Chongyang1504/article/details/107896013

版权

监督学习 Supervised learning

根据已有的数据集，知道输入和输出结果之间的关系。根据这种已知的关系，训练得到一个最优的模型。
可以理解为：使用标记的训练数据来学习从输入变量（X）到输出变量（Y）的映射函数。
Y = f（X）
监督学习问题可以有两种类型：
分类：预测输出变量处于类别形式的给定样本的结果。例如男性和女性，病态和健康等标签。
回归：预测给定样本的输出变量的实值结果。例子包括表示降雨量和人的身高的实值标签。

Linear Regression，线性回归

预测建模主要关注最小化模型误差或者尽可能作出最准确的预测，以可解释性为代价。我们将借用、重用包括统计学在内的很多不同领域的算法，并将其用于这些目的。
线性回归的表示是一个方程，它通过找到输入变量的特定权重（称为系数 B），来描述一条最适合表示输入变量 x 与输出变量 y 关系的直线。
在这里插入图片描述
例如：y = B0 + B1 * x
我们将根据输入 x 预测 y，线性回归学习算法的目标是找到系数 B0 和 B1 的值。
可以使用不同的技术从数据中学习线性回归模型，例如用于普通最小二乘法和梯度下降优化的线性代数解。
使用这种技术的一些经验是尽可能去除非常相似（相关）的变量，并去除噪音。

Logistic Regression，逻辑回归

Logistic 回归是机器学习从统计学中借鉴的另一种技术。它是解决二分类问题的首选方法。
Logistic 回归与线性回归相似，目标都是找到每个输入变量的权重，即系数值。与线性回归不同的是，Logistic 回归对输出的预测使用被称为 logistic 函数的非线性函数进行变换。
logistic 函数看起来像一个大的 S，并且可以将任何值转换到 0 到 1 的区间内。这非常实用，因为我们可以规定 logistic 函数的输出值是 0 和 1（例如，输入小于 0.5 则输出为 1）并预测类别值。
在这里插入图片描述
由于模型的学习方式，Logistic 回归的预测也可以作为给定数据实例（属于类别 0 或 1）的概率。这对于需要为预测提供更多依据的问题很有用。
像线性回归一样，Logistic 回归在删除与输出变量无关的属性以及非常相似（相关）的属性时效果更好。它是一个快速的学习模型，并且对于二分类问题非常有效。

线性判别分析，LDA

Logistic 回归是一种分类算法，监督学习的降维技术。传统上，它仅限于只有两类的分类问题。如果你有两个以上的类别，那么线性判别分析是首选的线性分类技术。“投影后类内方差最小，类间方差最大”，如下图。
在这里插入图片描述
LDA 的表示非常简单直接。它由数据的统计属性构成，对每个类别进行计算。单个输入变量的 LDA 包括：
每个类别的平均值；所有类别的方差。

进行预测的方法是计算每个类别的判别值并对具备最大值的类别进行预测。该技术假设数据呈高斯分布（钟形曲线），因此最好预先从数据中删除异常值。这是处理分类预测建模问题的一种简单而强大的方法。

SVM，支持向量机

支持向量机(Support Vector Machine，SVM)：是一类按监督学习方式对数据进行二元分类的广义线性分类器，其决策边界是对学习样本求解的最大边距超平面。例如，在纸上有两类线性可分的点，支持向量机会寻找一条直线将这两类点区分开来，并且与这些点的距离都尽可能远。
在这里插入图片描述

优点：泛化错误率低，结果易解释。
缺点：对大规模训练样本难以实施，解决多分类问题存在困难，对参数调节和核函数的选择敏感。
应用场景：文本分类、人像识别、医学诊断等。

Decision Tree 决策树

知乎网文章
是一个预测模型，代表的是对象属性与对象值之间的一种映射关系。
在这里插入图片描述

优点：易于理解和解释，可以可视化分析，容易提取出规则;能够处理不相关的特征。
缺点：对缺失数据处理比较困难。
应用场景：在决策过程应用较多。

ID3

由增熵（Entropy）原理来决定那个做父节点，那个节点需要分裂。对于一组数据，熵越小说明分类结果越好。熵定义如下：
Entropy＝- sum [p(x_i) * log2(P(x_i) ] （其中p(x_i) 为x_i出现的概率）

C4.5

ID3的改进，避免分的太细过拟合。C4.5中，优化项要除以分割太细的代价，这个比值叫做信息增益率，显然分割太细分母增加，信息增益率会降低。除此之外，其他的原理和ID3相同。

CART（Classification And Regression Tree）

ID3中使用了信息增益选择特征，增益大优先选择。C4.5中，采用信息增益比选择特征，减少因特征值多导致信息增益大的问题。CART分类树算法使用基尼系数来代替信息增益比，基尼系数代表了模型的不纯度，基尼系数越小，不纯度越低，特征越好。这和信息增益（比）相反。

算法	支持模型	树结构	特征选择	连续值处理	缺失值处理	剪枝
ID3	分类	多叉树	信息增益	不支持	不支持	不支持
C4.5	分类	多叉树	信息增益比	支持	支持	支持
CART	分类回归	二叉树	基尼系数均方差	支持	支持	支持

随机森林算法 RF：Random Forest

随机森林指的是利用多棵树对样本进行训练并预测的一种分类器。并且其输出的类别是由个别树输出的类别的众数而定。原理及python代码实现
在这里插入图片描述

Naive Bayesian classification 朴素贝叶斯分类

对于给出的待分类项，求解此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类属于哪个类别。贝叶斯公式为：p(A|B)= p(B|A)*p(A/p(B)，其中P(A|B)表示后验概率，P(B|A)是似然值，P(A)是类别的先验概率，P(B)代表预测器的先验概率。
优点：在数据较少的情况下仍然有效，可以处理多类别问题。
缺点：对输入数据的准备方式较为敏感。
应用场景：文本分类、人脸识别、欺诈检测。

K-Nearest Neighbor，KNN ，k-近邻算法

一种基于实例的学习，采用测量不同特征值之间的距离方法进行分类。其基本思路是：给定一个训练样本集，然后输入没有标签的新数据，将新数据的每个特征与样本集中数据对应的特征进行比较，找到最邻近的k个(通常是不大于20的整数)实例，这k个实例的多数属于某个类，就把该输入实例分类到这个类中。
在这里插入图片描述

优点：简单、易于理解、易于实现，无需估计参数。此外，与朴素贝叶斯之类的算法比，无数据输入假定、准确度高、对异常数据值不敏感。
缺点：对于训练数据依赖程度比较大，并且缺少训练阶段，无法应对多样本。
应用场景：字符识别、文本分类、图像识别等领域。

无监督组学习 unsupervised learning

不知道数据集中数据、特征之间的关系，而是要根据聚类或一定的模型得到数据之间的关系。
无监督学习问题只有输入变量（X），但没有相应的输出变量。它使用无标签的训练数据来模拟数据的基本结构。
无监督学习问题可以有两种类型：
关联：发现数据集合中的相关数据共现的概率。它广泛用于市场篮子分析。例如：如果顾客购买面包，他有80％的可能购买鸡蛋。
群集：对样本进行分组，使得同一个群集内的对象彼此之间的关系比另一个群集中的对象更为相似。
维度降低：维度降低意味着减少数据集的变量数量，同时确保重要的信息仍然传达。可以使用特征提取方法和特征选择方法来完成维度降低。特征选择选择原始变量的一个子集。特征提取执行从高维空间到低维空间的数据转换。例如：PCA算法是一种特征提取方法。
Apriori，K-means，PCA是无监督学习的例子。

Principal Component Analysis，PCA，主成分分析

不考虑样本类别输出的无监督降维技术，一种统计方法。其主要思想是将n维特征映射到k维上，这k维是全新的正交特征也被称为主成分，是在原有n维特征的基础上重新构造出来的k维特征。
在这里插入图片描述

优点：降低数据的复杂性，识别最重要的多个特征。
缺点：主成分各个特征维度的含义具有一定的模糊性，不如原始样本特征的解释性强;有可能损失有用的信息。
应用场景：语音、图像、通信的分析处理。

Singular Value Decomposition，SVD，奇异值分解

可以将一个比较复杂的矩阵用更小更简单的几个子矩阵的相乘来表示，这些小矩阵描述的是矩阵的重要的特性。
优点：简化数据，去除噪声点，提高算法的结果。
缺点：数据的转换可能难以理解。
应用场景：推荐系统、图片压缩等。

K-Means，K-均值聚类

是一种迭代求解的聚类分析算法，采用距离作为相似性指标。其工作流程是随机确定K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。
在这里插入图片描述

步骤1：k-means初始化：
a）选择k的值。在这里，让我们取k = 3。
b）将每个数据点随机分配到3个群集中的任何一个。
c）为每个集群计算集群质心。红色，蓝色和绿色星星表示3个星团中的每一个的质心。

步骤2：将每个观察结果与群集相关联：
将每个点重新分配到最近的集群质心。这里，上面的5个点被分配到具有蓝色质心的簇。按照相同的步骤将点分配给包含红色和绿色质心的群集。

步骤3：重新计算质心：
计算新簇的质心。旧的质心由灰色星星表示，而新的质心是红色，绿色和蓝色星星。

步骤4：迭代，然后退出，如果不变。

重复步骤2-3，直到没有从一个群集切换到另一个群集。一旦连续两个步骤没有切换，退出k-means算法。

优点：算法简单容易实现。
缺点：可能收敛到局部最小值，在大规模数据集上收敛较慢。
应用场景：图像处理、数据分析以及市场研究等。

Apriori

Apriori算法用于事务数据库挖掘，然后生成关联规则。它在市场篮子分析中被广泛使用，在这个分析中，检查数据库中经常出现的产品组合。一般来说，我们写出如果一个人购买项目X，然后他购买项目Y的关联规则为：X – > Y。

例如：如果一个人购买牛奶和糖，那么他很可能会购买咖啡粉。这可以写成关联规则的形式：{牛奶，糖} – >咖啡粉。

半监督学习 Semi-Supervised Learning

半监督学习是模式识别和机器学习领域研究的重点问题，是监督学习与无监督学习相结合的一种学习方法。
半监督学习使用大量的未标记数据，以及同时使用标记数据，来进行模式识别工作。
当使用半监督学习时，将会要求尽量少的人员来从事工作，同时，又能够带来比较高的准确性。

强化学习

强化算法通常通过反复试验来学习最佳行为。它们通常用于机器人的训练，机器人可以通过在碰到障碍物后接收负面反馈来学习避免碰撞。近期的alphago zero就是采用的强化学习的方法，来完成实验的。

Q-learning

是一个基于值的强化学习算法，它根据动作值函数评估应该选择哪个动作，这个函数决定了处于某一个特定状态以及在该状态下采取特定动作的奖励期望值。

优点：可以接收更广的数据范围。
缺点：缺乏通用性。
应用场景：游戏开发。

鲁班实验室

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习算法梳理

监督学习SVM 支持向量机支持向量机(Support Vector Machine，SVM)：是一类按监督学习方式对数据进行二元分类的广义线性分类器，其决策边界是对学习样本求解的最大边距超平面。例如，在纸上有两类线性可分的点，支持向量机会寻找一条直线将这两类点区分开来，并且与这些点的距离都尽可能远。优点：泛化错误率低，结果易解释。缺点：对大规模训练样本难以实施，解决多分类问题存在困难，对参数调节和核函数的选择敏感。应用场景：文本分类、人像识别、医学诊断等。Decision Tree 决策树是一
复制链接

扫一扫