机器学习常见名词概念(实时更新)

名字想不称展

已于 2024-06-25 17:16:14 修改

阅读量945

点赞数 14

分类专栏：机器学习！文章标签：机器学习人工智能

于 2024-06-24 17:17:23 首次发布

本文链接：https://blog.csdn.net/m0_63613132/article/details/139928706

版权

机器学习！专栏收录该内容

4 篇文章 1 订阅

订阅专栏

文章目录

机器学习常见名词含义：

机器学习常见名词含义：

人工智能、机器学习、深度学习的关系

人工智能> 机器学习> 深度学习
在这里插入图片描述

监督学习（Supervised Learning）

监督学习是一种机器学习范式，其中模型在训练过程中利用带有标签的数据进行学习。也就是说，训练数据集包含输入数据（特征）和对应的输出标签（目标值）。模型通过学习这些数据之间的映射关系，以便在遇到新的未见数据时能够预测其标签。

无监督学习（Unsupervised Learning）

无监督学习是一种机器学习范式，其中模型在训练过程中使用未标记的数据进行学习。也就是说，训练数据集只有输入数据，没有对应的输出标签。模型的目标是发现数据中的模式、结构或分布。

主要特征：

输入输出配对：训练数据集中，每个输入样本都有一个对应的输出标签。
目标明确：模型的目标是找到一个映射函数，使得输入数据能够尽可能准确地映射到正确的输出标签。

主要特征：

无标签数据：训练数据集中只有输入数据，没有输出标签。
目标不明确：模型的目标是找到数据中的隐藏模式或结构。

监督学习和无监督学习的比较：

特征	监督学习	无监督学习
数据集	有标签数据	无标签数据
目标	预测输出标签	发现数据模式
常见算法	线性回归、SVM、神经网络等	聚类、降维、关联规则等
应用	分类和回归问题	聚类、降维、关联规则学习

应用场景

监督学习

分类问题：如垃圾邮件检测（预测邮件是否为垃圾邮件）、图像分类（识别图像中的物体）。
回归问题：如房价预测（预测房子的价格）、股票价格预测。

无监督学习

聚类：如客户细分（根据客户行为进行市场细分）、图像分割（将图像划分为不同区域）。
降维：如数据可视化（将高维数据投影到低维空间）、特征提取（从高维数据中提取重要特征）。
关联规则学习：如购物篮分析（发现商品间的购买关联）、推荐系统（基于用户行为推荐商品）。

模型的评估指标有哪些

分类问题

准确率（Accuracy）
精确率（Precision）
召回率（Recall）
F1分数（F1 Score）
ROC曲线和AUC（Receiver Operating Characteristic and Area Under the Curve）

回归问题

均方误差（Mean Squared Error, MSE）
均方根误差（Root Mean Squared Error, RMSE）
平均绝对误差（Mean Absolute Error, MAE）
决定系数（R-squared, Coefficient of Determination）

超参数

batch_size

定义：batch_size 是指在每次训练迭代中，使用的训练样本的数量。
影响：
- 内存占用：较大的 batch_size 需要更多的内存来存储数据和梯度。
- 训练速度：较大的 batch_size 可以提高训练速度，因为并行计算效率更高。
- 梯度估计稳定性：较大的 batch_size 使梯度估计更加稳定，收敛性更好，但可能导致跳过局部最优解。
典型值：常见的 batch_size 值有32、64、128、256（2的多少次方）等。具体值需要根据硬件条件和数据集大小进行调整。

epochs

定义：epochs 是指完整遍历训练数据集的次数。
影响：
- 训练时间：较多的 epochs 会增加训练时间。
- 模型收敛：较多的 epochs 可以让模型更好地学习数据，但过多的 epochs 可能导致过拟合（模型在训练数据上表现很好，但在新数据上表现不佳）。
典型值：根据数据集大小和复杂度，一般在10到数百之间。通常在训练过程中使用验证集来监控模型性能，以确定最佳的 epochs 数量。

learning_rate

定义：learning_rate 是指每次更新模型参数时步长的大小。
影响：
- 收敛速度：较大的 learning_rate 可以加快收敛速度，但可能会跳过全局最优解，导致发散。
- 训练稳定性：较小的 learning_rate 会使训练更加稳定，但收敛速度较慢，可能陷入局部最优解。
调整方法：常见的调整方法包括学习率衰减（随着训练进行逐步减小学习率）和自适应学习率方法（如Adam、RMSprop）。
典型值：常见的 learning_rate 值在0.001到0.1之间。具体值需要通过实验调整。

总结

batch_size：每次迭代中使用的训练样本数量。
epochs：完整遍历训练数据集的次数。
learning_rate：每次参数更新的步长大小。

过拟合

过拟合和欠拟合是机器学习中模型性能评估的重要概念，反映了模型在训练数据集和测试数据集上的表现情况。

过拟合：过拟合指的是模型在训练数据上表现得很好，但在新数据（测试数据）上表现不佳的现象。

直观解释：好比一位学生只记住了练习题的答案，但不能解决新题目。虽然在练习题上得分很高，但在考试中表现不佳。

这通常发生在模型过于复杂，能够很好地拟合训练数据中的噪声和细节，导致它不能很好地泛化到未见过的数据上。

解决方法

减少模型复杂度（例如，通过降维、减少特征数或简化模型结构）。
使用正则化技术（如L1或L2正则化）。
增加训练数据。
使用交叉验证来选择模型。

欠拟合

欠拟合：欠拟合指的是模型在训练数据和新数据上都表现不佳的现象。

直观解释：好比一位学生没有充分学习，只掌握了基础知识，既不能很好地解决练习题，也不能解决考试题目。

这通常发生在模型过于简单，无法捕捉数据中的复杂结构和模式。

解决方法

增加模型复杂度 (通过添加更多的特征、使用更复杂的模型如神经网络或决策树等)
减少特征选择中的约束条件。
增加训练时间或迭代次数。
使用更多的特征工程。

交叉验证

一种评估机器学习模型性能的技术，主要用于避免模型的过拟合和欠拟合问题。它通过将数据集分成多个子集，多次训练和验证模型，来评估模型在未见过的数据上的表现。

交叉验证的基本概念

数据集分割：将可用的数据集分成多个子集，通常称为折（folds）。最常见的是将数据集分成k个等大的子集，这种方法称为k折交叉验证（k-Fold Cross-Validation）。
多次训练和验证：在每次迭代中，使用k-1个子集训练模型，剩下的1个子集用于验证模型。这个过程会重复k次，每次选择不同的子集作为验证集，其余作为训练集。
性能评估：通过k次验证的结果，计算模型性能的平均值和方差，以此来评估模型的稳定性和泛化能力。

交叉验证的优点

减少过拟合风险：通过多次训练和验证，交叉验证可以更好地估计模型的泛化能力。
充分利用数据：特别适用于数据量较小的情况，交叉验证能更有效地利用数据。
模型选择和调优：有助于选择最佳的模型参数和算法，提升模型性能。

交叉验证的缺点

计算成本高：特别是对于大数据集或复杂模型，k次训练和验证的计算成本较高。
不适用于时间序列数据：由于时间序列数据有顺序性，交叉验证的随机分割会破坏这种顺序，需要使用其他方法如滚动预测（rolling forecast）进行验证。

K折交叉验证

步骤：

将数据集随机分成k个等大小的子集。
进行k次迭代：

每次迭代中，选择一个不同的子集作为验证集，其余k-1个子集作为训练集。
在训练集上训练模型。
在验证集上评估模型性能（例如，计算准确率、误差等）。

计算k次验证的平均性能指标，例如平均准确率或平均误差。

示例：

from sklearn.model_selection import cross_val_score
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression

# 加载示例数据集
iris = load_iris()
X, y = iris.data, iris.target

# 创建模型
model = LogisticRegression(max_iter=200)

# 执行k折交叉验证
scores = cross_val_score(model, X, y, cv=5)  # 5折交叉验证

# 输出每次验证的得分和平均得分
print("Cross-Validation Scores:", scores)
print("Mean Score:", scores.mean())

交叉验证的目的

评估模型的泛化能力：
交叉验证通过多次将数据集分为训练集和验证集，可以更准确地评估模型在未见数据上的性能。相比单一的训练/测试分割，交叉验证提供了对模型泛化能力的更全面的评价。
防止过拟合和欠拟合：
通过使用多个训练/验证分割，交叉验证可以帮助识别模型是否过拟合或欠拟合。过拟合的模型在训练数据上表现良好但在验证数据上表现不佳，而欠拟合的模型在训练和验证数据上都表现不佳。
模型选择和参数调优：
交叉验证常用于选择最佳的模型参数和算法。通过比较不同参数设置或不同模型在交叉验证中的表现，可以选择出最优的参数或模型配置。
利用数据：
在数据量有限的情况下，交叉验证通过多次分割和训练，可以更有效地利用数据集的每一部分，确保所有数据都用于训练和验证。
减少评估结果的偏差：
单次的训练/测试分割可能由于随机性导致评估结果存在偏差。交叉验证通过多次分割和重复评估，能够减少这种偏差，提高评估结果的可靠性。