西瓜书（机器学习）第一章

尚思畅

已于 2023-03-27 14:46:43 修改

阅读量212

点赞数

分类专栏：西瓜书文章标签：机器学习人工智能深度学习

于 2023-03-26 11:07:17 首次发布

本文链接：https://blog.csdn.net/m0_65930263/article/details/129776853

版权

西瓜书专栏收录该内容

7 篇文章 0 订阅

订阅专栏

基本术语

样本/数据点（Sample/Data Point）：指机器学习算法输入的数据单元，可以是一张图片、一段文字、一首歌曲等等。
特征/属性（Feature/Attribute）：指用来描述样本的属性或特征，比如一张图片的像素值、一段文字的词频、一首歌曲的节奏等等。
标签/目标（Label/Target）：指监督学习中，样本所对应的输出结果或类别，比如一张图片是猫还是狗、一段文字的情感倾向、一首歌曲的音乐类型等等。
模型/学习器（Model/Learner）：指机器学习算法所构建的模型或学习器，用来对输入的样本进行学习和预测。
训练集/测试集（Training Set/Test Set）：指用来训练模型的样本集和用来测试模型性能的样本集，通常将数据集划分为训练集和测试集两部分。
监督学习/无监督学习/强化学习（Supervised Learning/Unsupervised Learning/Reinforcement Learning）：指机器学习的三种基本学习范式，监督学习通过带标签的训练数据来学习预测标签，无监督学习通过无标签的训练数据来学习数据的内在结构，强化学习通过智能体与环境的交互来学习最优策略。
损失函数/代价函数（Loss Function/Cost Function）：指衡量模型预测结果与真实标签之间差距的函数，通常用于模型训练的优化。
优化算法（Optimization Algorithm）：指用来优化模型训练的算法，比如梯度下降、Adam等等。
过拟合/欠拟合（Overfitting/Underfitting）：指模型在训练集上过度拟合或欠拟合的现象，导致在测试集上性能不佳。
泛化能力（Generalization）：指模型在未见过的数据上的预测能力，一个好的模型应该具有良好的泛化能力。

假设空间

机器学习中的假设空间（Hypothesis Space）是指模型能够表示的所有可能函数的集合。假设空间的大小与模型的表达能力有关，表达能力越强，假设空间就越大。

在监督学习中，假设空间通常由一个参数化的函数族表示，每个函数都有一组可调节的参数，这些参数的不同取值对应着假设空间中的不同函数。比如线性回归模型的假设空间就由所有线性函数组成，每个线性函数都由一组权重和偏置参数表示，参数的不同取值对应着不同的线性函数。

在无监督学习中，假设空间通常由一个潜在变量模型表示，每个潜在变量模型都有一组可调节的参数，这些参数的不同取值对应着假设空间中的不同模型。比如聚类算法的假设空间就由所有可能的聚类结果组成，每个聚类结果对应着一个不同的潜在变量模型。

选择适合的假设空间是机器学习中的一个重要问题，一个合适的假设空间应该既具备足够的表达能力，又避免过度拟合的问题。为了解决这个问题，通常需要通过交叉验证等技术来评估不同假设空间的性能，并选择最优的假设空间。

归纳偏好

机器学习中的归纳偏好（Inductive Bias）是指算法在学习过程中对学习对象的偏好和先验知识。它是机器学习算法设计的重要因素，能够在训练数据量较小的情况下，帮助算法做出更加合理的学习决策。

归纳偏好可以是任何与学习对象有关的因素，例如学习任务的性质、数据的分布、学习算法的选择等。不同的算法往往具有不同的归纳偏好，导致它们在不同的场景下具有不同的表现。

例如，决策树算法具有对属性值的离散化偏好，即将连续属性值转化为离散的取值，这样可以将属性空间划分为有限的几个部分，从而使得学习任务变得更加简单和可控。

另一个例子是支持向量机（SVM）算法，它具有对最大间隔分离超平面的偏好，即尽可能地将不同类别的数据点分开，并保持超平面距离最大化，从而达到更好的分类性能。

归纳偏好的选择不仅影响学习算法的性能，还可以影响到算法的稳定性和泛化能力。因此，为了选择合适的归纳偏好，需要在数据和任务的基础上进行理性分析和实验验证。

没有免费的午餐定理

"没有免费的午餐定理"（No Free Lunch Theorem，简称NFL定理）是机器学习中一个非常重要的定理。它指出，对于所有可能的问题和算法，算法在所有问题上的表现是平均的，没有一种算法能够在所有问题上都表现得最好。

这个定理的核心思想是，算法的性能是取决于问题本身的特性的，如果算法在一个问题上表现得很好，那么它可能在另一个问题上表现得很差。简单来说，就是不存在一种算法可以解决所有的问题。

这个定理提醒我们，选择适合的算法需要根据具体的问题和数据特征来决定，不能单纯依赖于算法的普适性或者一些“通用的套路”。在机器学习中，为了找到最好的模型或算法，我们需要不断地探索、比较和改进不同的方法，以适应不同的数据和问题场景。

尚思畅

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
西瓜书（机器学习）第一章

样本/数据点（Sample/Data Point）：指机器学习算法输入的数据单元，可以是一张图片、一段文字、一首歌曲等等。特征/属性（Feature/Attribute）：指用来描述样本的属性或特征，比如一张图片的像素值、一段文字的词频、一首歌曲的节奏等等。标签/目标（Label/Target）：指监督学习中，样本所对应的输出结果或类别，比如一张图片是猫还是狗、一段文字的情感倾向、一首歌曲的音乐类型等等。
复制链接

扫一扫