机器学习作为人工智能的一个核心分支,涉及众多专业术语。以下是机器学习领域中一些基础且重要的术语及其解释:
-
Data (数据):机器学习模型训练和测试所使用的原始信息记录,可以是数字、文本、图像等形式。
-
Dataset (数据集):一组收集好的数据记录,通常用于训练机器学习模型或评估其性能。
-
Instance/Sample (实例/样本):数据集中的一条记录,代表一个具体观测或事件。
-
Feature/Attribute (特征/属性):描述实例的属性或变量,用于区分不同实例,是模型做决策的基础。
-
Label (标签):在监督学习中,每个样本对应的正确答案或目标变量,用于训练模型进行预测。
-
Supervised Learning (监督学习):模型在带有标签的训练数据上学习输入与输出之间的映射关系。
-
Unsupervised Learning (无监督学习):模型在无标签数据上学习数据的内在结构或模式。
-
Regression (回归):一种监督学习任务,预测连续数值型的目标变量。
-
Classification (分类):一种监督学习任务,预测离散类别型的目标变量。
-
Model (模型):机器学习中用于进行预测或决策的数学表示或算法结构。
-
Training (训练):使用数据集来调整模型参数,以最小化预测误差或最大化模型性能的过程。
-
Hyperparameter (超参数):在模型训练开始之前设定的参数,如学习率、隐藏层大小等,影响模型的学习过程但不在训练过程中自动更新。
-
Loss Function (损失函数):衡量模型预测值与真实值之间差异的函数,训练过程中力求最小化该函数值。
-
Overfitting (过拟合):模型在训练数据上表现过好,以至于不能很好地泛化到未见过的数据。
-
Underfitting (欠拟合):模型过于简单,不能充分捕捉数据中的模式,导致训练数据和测试数据上的表现都不佳。
-
Cross-Validation (交叉验证):一种评估模型性能的方法,通过将数据分成训练集和验证集的不同组合来测试模型的泛化能力。
-
Regularization (正则化):在损失函数中加入额外项以防止模型过拟合,常见的有L1和L2正则化。
-
Ensemble Learning (集成学习):结合多个模型的预测以提高整体预测准确性和稳定性,如Bagging、Boosting和Stacking。
-
Gradient Descent (梯度下降):一种常用的优化算法,用于寻找损失函数最小值,通过沿着梯度的反方向逐步调整模型参数。
-
Neural Network (神经网络):一种模拟人脑神经元结构的计算模型,由多层节点(神经元)组成,广泛应用于深度学习。
这些术语构建了机器学习的基础框架,理解它们有助于深入学习和应用机器学习技术。