监督学习概览

序言

监督学习,作为机器学习的一个重要分支,其核心在于通过给定的输入数据及其对应的标签或输出,训练出一个模型,使该模型能够自动地对新的、未见过的输入数据进行准确的预测或分类。监督学习不仅推动了人工智能和大数据领域的快速发展,也为各行各业带来了革命性的变革。

如果一台机器在给定任务中的表现随着经验的提高而提高,那么它就会从过去的经验中学习(数据反馈)。例如,假设一台机器必须预测客户今年是否会购买特定产品,比如“防病毒”。机器将通过查看以前的知识/过去的经验,即客户每年购买的产品数据,如果他每年都购买防病毒软件,那么客户今年也将购买防病毒软件的可能性很大。这就是机器学习在基本概念层面的工作方式。

监督学习

监督学习是一种机器学习技术,广泛应用于金融、医疗保健、市场营销等多个领域。它是机器学习的一种形式,其中算法在标记数据上进行训练,以根据数据输入做出预测或决策。在监督学习中,算法学习输入和输出数据之间的映射。该映射是从由输入和输出数据对组成的标记数据集学习的。该算法试图学习输入和输出数据之间的关系,以便能够对新的、看不见的数据做出准确的预测。机器学习是什么,如下图所示:

监督学习是在带标签的数据集上训练模型的地方。标签数据集是同时具有输入和输出参数的数据集。监督学习中使用的标签数据集由输入特征和相应的输出标签组成。

输入特征是用于进行预测的数据的属性或特征,而输出标签是算法试图预测的期望结果或目标。

在这种类型的学习训练和验证中,数据集的标签如下图所示。

图片

上述两个图都标注了如下数据集:

图A:分类问题

它是购物商店的数据集,可用于根据客户的性别、年龄和工资预测客户是否会购买所考虑的特定产品。

输入特征:性别,年龄,工资

输出标签:已购买,即0或1;1表示客户愿意购买,0表示客户不会购买

图B:回归问题

它是一个气象数据集,用于根据不同参数预测风速。

输入特征:温度、压力、相对湿度、风向

输出标签:风速

训练模型:在训练模型时,数据通常以80:20的比例分割,即80%作为训练数据,其余作为测试数据。在训练数据中,我们为80%的数据提供输入和输出。模型仅从训练数据中学习。我们使用不同的机器学习算法来构建我们的模型。学习意味着模型会建立自己的一些逻辑。一旦模型准备好了,就可以进行测试。在测试时,输入来自模型以前从未见过的剩余20%的数据,模型将预测一些值,我们将其与实际输出进行比较并计算精度。

监督学习类型

监督学习通常分为两大类:回归和分类。在回归中,算法学习预测连续的输出值,如房价或城市温度。在分类中,算法学习预测分类输出变量或类别标签,例如客户是否可能购买产品。

监督学习的主要优势之一是它允许创建复杂的模型,这些模型可以对新的、未见数据做出准确的预测。然而,监督学习需要大量有标签的训练数据才能有效。此外,训练数据的质量和代表性会对模型的准确性产生重大影响。监督学习可以进一步分为两类:

回归

回归是一种监督学习技术,用于根据输入特征预测连续数值。它旨在建立自变量和因变量之间的函数关系,例如根据大小、卧室和位置等特征预测房价。目标是使用线性回归、决策树或神经网络等算法最小化预测值和实际值之间的差异,确保模型捕获数据中的潜在模式。

分类

分类是一种监督学习,它将输入数据分类为预定义的标签。它涉及在标记的示例上训练模型,以学习输入特征和输出类之间的模式。在分类中,目标变量是一个分类值。例如,是否将电子邮件分类为垃圾邮件。该模型的目标是推广这种学习,以对新的、看不见的数据做出准确的预测。决策树、支持向量机和神经网络等算法通常用于分类任务。

注意:存在可用于回归和分类任务的通用监督机器学习算法。

监督学习算法

监督学习可以进一步分为几种不同的类型,每一种都有其独特的特点和应用。下面是一些最常见的监督学习算法类型:

1. 线性回归

线性回归是一种用于预测连续输出值的回归算法。它是监督学习中最简单和应用最广泛的算法之一。在线性回归中,算法试图找到输入特征和输出值之间的线性关系。基于输入特征的加权和来预测输出值。

2. 逻辑回归

逻辑回归是一种用于预测二进制输出变量的分类算法。它通常用于输出变量为true或false的机器学习应用程序,例如欺诈检测或垃圾邮件过滤。在逻辑回归中,算法试图找到输入特征和输出变量之间的线性关系。然后使用逻辑函数转换输出变量,以产生0和1之间的概率值。

3. 决策树

决策树是一种树状结构,用于对决策及其可能的结果进行建模。树中的每个内部节点代表一个决策,而每个叶节点代表一个可能的结果。决策树可用于对输入特征和输出变量之间的复杂关系进行建模。决策树是一种用于分类和回归任务的算法。

  • 决策树回归:通过预测与叶节点链接的值,可以将决策树用于回归任务。

  • 决策树分类:随机森林是一种机器学习算法,它使用多个决策树来改进分类并防止过拟合。

4. 随机森林

随机森林由多个决策树组成,这些决策树协同工作以进行预测。森林中的每棵树都在输入特征和数据的不同子集上进行训练。通过聚合森林中所有树木的预测来进行最终预测。随机森林是一种用于分类和回归任务的集成学习技术。

  • 随机森林回归:它结合了多个决策树,以减少过拟合并提高预测精度。

  • 随机森林分类器:结合多个决策树以提高分类的准确性,同时最小化过拟合。

5. 支持向量机(SVM)

SVM算法创建一个超平面,将N维空间划分为类别,并识别新数据点的正确类别。帮助创建超平面的极端情况称为支持向量,因此称为支持向量机。支持向量机是一种用于分类和回归任务的算法。

  • 支持向量回归器:它是用于预测连续值的支持向量机(SVM)的扩展。

  • 支持向量分类器:它的目标是找到使不同类别的数据点之间的间隔最大化的最佳超平面。

6. K-近邻(KNN)

KNN通过找到最接近给定输入的K个训练示例来工作,然后基于这些邻居的多数类或平均值来预测类或值。K的选择和用于测量接近度的距离度量会影响KNN的性能。然而,它是直观的,但可能对噪声数据敏感,并且需要仔细选择K以获得最佳结果。K-近邻(KNN)是一种用于分类和回归任务的算法。

  • K-近邻回归:它通过平均K个最近邻居的输出来预测连续值。

  • K-近邻分类器:基于数据点的K个最近邻居的多数类对数据点进行分类。

7. 梯度提升(Gradient Boosting)

梯度提升结合弱学习器(如决策树)来创建强模型。它迭代地构建新模型,以纠正以前模型所犯的错误。每个新模型都经过训练以最小化残差,从而产生能够处理复杂数据关系的强大预测器。梯度提升是一种用于分类和回归任务的算法。

  • 梯度提升回归:它建立了一个弱学习器的集成,通过迭代训练来提高预测精度。

  • 梯度提升分类:创建一组分类器,以通过迭代不断提高预测的准确性。

监督学习优势

监督学习的强大之处在于它能够准确预测模式,并在各种应用中做出数据驱动的决策。下面列出了一些优势:

  1. 通过使模型能够准确地学习输入和输出之间的模式和关系,标记的训练数据有益于监督学习。

  2. 监督学习模型可以对新数据进行准确的预测和分类。

  3. 监督学习有着广泛的应用,包括分类、回归,甚至像图像识别和自然语言处理这样更复杂的问题。

  4. 良好的评估指标,包括准确度、精确度、召回率和F1分数,有助于评估监督学习模型的性能。

监督学习缺点

尽管监督学习方法具有优势,但其局限性需要在问题公式化、数据收集、模型选择和评估过程中仔细考虑。下面列出了一些缺点:

  1. 过拟合: 模型可能会过度拟合训练数据,由于噪声的捕获,这会导致对新的、看不见的数据的性能较差。

  2. 特征工程: 从原始数据中提取相关特征对于模型性能至关重要,但这一过程可能非常耗时,并且可能需要领域专业知识。

  3. 模型中的偏差:训练数据偏差会导致不公平的预测。

监督学习严重依赖于标记的训练数据,这可能是昂贵的,耗时的,并且可能需要领域专业知识。

总结

监督学习广泛应用于多个领域,包括自动驾驶的图像识别、自然语言处理中的文本分类与翻译、推荐系统的个性化推荐,以及医疗诊断的辅助分析。这些应用基于大量标记数据训练模型,实现准确预测和决策,为人类生活带来便捷和高效。

  • 32
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

绎岚科技

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值