机器学习实战｜第一周｜第1章：机器学习基础_什么是被标记的训练数据集-CSDN博客

本文链接：https://blog.csdn.net/m0_57656758/article/details/130249248

本文介绍了机器学习的基本概念，包括它是如何让计算机通过历史数据学习并预测未来。机器学习在欺诈检测、图像识别、推荐系统等领域有广泛应用。文章还区分了监督学习、无监督学习、强化学习和半监督学习，以及回归和分类的区别。此外，讨论了各种机器学习算法的分类，如回归、聚类、贝叶斯方法等，并提到了测试集在评估模型性能中的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 什么是机器学习（课本给出的部分定义）

1. 什么是机器学习（课本给出的部分定义）

【1】机器学习是研究使用计算机模拟或实现人类学习活动的科学，是一种构建模型实现自动化数据分析的方法，是人工智能中最具智能特征、最前沿的研究领域之一。

【2】机器学习方法是计算机利用已有的数据，得出某种模型，并利用此模型预测未来的一种方法。

【3】

【4】机器学习方法是计算机利用已有的经验，得出某种规律，并利用此规律预测未来的一种方法。

【5】机器学习的算法能指引计算机在海量数据中，挖掘出有价值的信息。

我理解的机器学习：

机器通过训练大量的历史数据，得到一个模型/规律，当我们输入新的数据，可以通过这个模型预测未知的标签（数据）。

2. 机器学习在哪些问题上表现突出？

机器学习算法指导计算机利用已知数据得出适当的模型，并利用此模型对新的数据给出判断。

机器学习解决的实际问题包括：

根据信用卡交易的历史数据，判定哪些交易是欺诈交易；

从字母、数字或汉字图像中有效地识别出相应的字符；

（推荐系统：）

根据用户以往的购物历史来给用户推荐新商品；

根据用户当前的查询和以往的消费历史向其推荐适合的网页、商品等；

根据用户对短视频的观看时间、关注、下载、点赞情况推荐相关的短视频。

四种常见的应用类型：

监督学习：监督学习是机器学习领域中最常见的一种应用类型，也是最为成熟和广泛应用的一种方法。在监督学习中，模型利用一组已知的输入和输出数据进行训练，然后用于预测新的输入数据的输出值。监督学习可以应用于许多不同的任务，如分类、回归、文本分类等。

无监督学习：与监督学习相反，无监督学习不需要任何标记数据来进行训练。在无监督学习中，模型使用未标记的数据进行训练，以发现这些数据中的潜在结构和模式。无监督学习可以用于许多不同的任务，如聚类、降维、异常检测等。

强化学习：强化学习是一种学习方式，其目的是使智能系统能够通过与环境的相互作用来学习如何进行决策和行动。在强化学习中，智能系统会根据执行的行动和环境的反馈（即奖励或惩罚）来反馈自己的决策和行为，以优化其行动策略，从而实现其目标。

半监督学习：半监督学习是介于监督学习和无监督学习之间的一种学习方式。在半监督学习中，模型使用一部分已标记的数据和一部分未标记的数据进行训练，以发现未标记数据中的结构和模式，并将这些信息应用于预测。半监督学习可以提高模型的准确性，并在标记数据不足时发挥更大的作用。

以上是机器学习中四种常见的应用类型，不同的学习方式可以应用于不同的场景，用于解决不同的问题。

3. 什么是被标记的训练数据集？

未经过标记处理的原始数据多以非结构化数据为主，这些数据是不能被机器识别与学习的。只有经过标记处理后的数据，成为结构化数据才能被算法训练所使用的。

4. 回归和分类是什么意思？

回归方法尝试预测的值Y是连续的，而分类问题中的Y是具有离散属性的变量。

分类和回归的区别在于输出变量的类型。

定量输出称为回归，或者说是连续变量预测；

定性输出称为分类，或者说是离散变量预测。

举个例子：

预测明天的气温是多少度，这是一个回归任务；

预测明天是阴、晴还是雨，就是一个分类任务。

回归算法是试图采用对误差的衡量来探索目标与变量之间关系的一类算法，回归算法是机器学习的利器。（课本定义）

5. 机器学习按照学习方式分类

监督学习

有明确的输入/输出对，输入为特征，输出为标签；

常见场景：垃圾邮件处理、人脸识别、温度测量等分类和回归问题；

常见算法：逻辑回归和神经网络、支持向量机、决策树。

无监督学习

数据只有输入特征，没有输出标签，学习模型是为了推断出数据的一些内在结构；

常见场景：客户兴趣、新闻主题、舆情分析；

常见算法：关联规则（Apriori算法）、聚类（K-means算法）、降维（PCA算法）等。

半监督学习

输入数据部分被标识，部分没有被标识，这种学习方式可以用来进行预测，但是模型首先需要学习数据的内在结构以便合理地组织数据来进行预测；

常见算法：图论推理算法（Graph Inference）和拉普拉斯支持向量机（Laplacian SVM）等。

强化学习

在强化学习中，模型根据环境的反馈，对输入进行奖励或惩罚。输入数据作为对模型的反馈，在强化学习中，输入数据直接反馈到模型，模型必须对此立即作出调整。

6. 机器学习按照算法的类似性分类

（1）回归算法

回归算法是试图采用对误差的衡量来探索目标与变量之间关系的一类算法，回归算法是机器学习的利器。

常见算法：最小二乘法、线性回归、逐步式回归、多元自适应回归样条、本地散点平滑估计。

（2）基于实例的算法

（3）正则化方法

（4）基于树的方法

根据数据的属性采用树状结构建立决策模型，决策模型常用来解决分类和回归问题。

（5）贝叶斯方法

基于贝叶斯定理的一类算法，主要用来解决分类问题。常见算法包括：朴素贝叶斯算法、平均单依赖估计、贝叶斯信念网络。

（6）基于核的方法

基于核的算法把输入数据映射到一个高级的向量空间，在这个高阶向量空间里，有些分类或者回归问题能够更容易地解决。常见的基于核的算法包括：支持向量机SVM、径向基函数RBF、线性判别分析LDA等。

（7）聚类算法

通常按照中心点或者分层的方式对输入数据进行归并。所有的聚类算法都试图找到数据的内在结构，以便按照最大的共同点将数据进行归类。常见的聚类算法包括K-Means和期望最大化算法EM。

（8）关联规则算法

（9）人工神经网络

人工神经网络模拟生物神经网络，是一类模式匹配算法。

通常用于解决分类和回归问题。

常见算法：

感知器神经网络Perceptron Neural Network

反向传递Back Propagation

Hopfield网络

自组织映射 Self-Organizing Map,SOM

学习向量量化Learning Vector Quantization,LVQ

（10）深度学习

（11）降维算法

（12）集成方法

7. 机器学习与人工智能的关系

8. 机器学习与深度学习的关系

9. 什么是测试集？为什么使用测试集？

训练集：用于训练模型。

测试集：用于测试训练后模型的性能。

训练集数据用于算法的学习，构建模型。

机器学习将训练好的模型应用于新的数据，判断这个训练的模型是否可用，需要有评估模型性能的方法，故将测试集数据用于评估模型的性能。