西瓜书(机器学习)第一章

目录

基本术语

假设空间

归纳偏好

没有免费的午餐定理


基本术语

  1. 样本/数据点(Sample/Data Point):指机器学习算法输入的数据单元,可以是一张图片、一段文字、一首歌曲等等。

  2. 特征/属性(Feature/Attribute):指用来描述样本的属性或特征,比如一张图片的像素值、一段文字的词频、一首歌曲的节奏等等。

  3. 标签/目标(Label/Target):指监督学习中,样本所对应的输出结果或类别,比如一张图片是猫还是狗、一段文字的情感倾向、一首歌曲的音乐类型等等。

  4. 模型/学习器(Model/Learner):指机器学习算法所构建的模型或学习器,用来对输入的样本进行学习和预测。

  5. 训练集/测试集(Training Set/Test Set):指用来训练模型的样本集和用来测试模型性能的样本集,通常将数据集划分为训练集和测试集两部分。

  6. 监督学习/无监督学习/强化学习(Supervised Learning/Unsupervised Learning/Reinforcement Learning):指机器学习的三种基本学习范式,监督学习通过带标签的训练数据来学习预测标签,无监督学习通过无标签的训练数据来学习数据的内在结构,强化学习通过智能体与环境的交互来学习最优策略。

  7. 损失函数/代价函数(Loss Function/Cost Function):指衡量模型预测结果与真实标签之间差距的函数,通常用于模型训练的优化。

  8. 优化算法(Optimization Algorithm):指用来优化模型训练的算法,比如梯度下降、Adam等等。

  9. 过拟合/欠拟合(Overfitting/Underfitting):指模型在训练集上过度拟合或欠拟合的现象,导致在测试集上性能不佳。

  10. 泛化能力(Generalization):指模型在未见过的数据上的预测能力,一个好的模型应该具有良好的泛化能力。

假设空间

机器学习中的假设空间(Hypothesis Space)是指模型能够表示的所有可能函数的集合。假设空间的大小与模型的表达能力有关,表达能力越强,假设空间就越大。

在监督学习中,假设空间通常由一个参数化的函数族表示,每个函数都有一组可调节的参数,这些参数的不同取值对应着假设空间中的不同函数。比如线性回归模型的假设空间就由所有线性函数组成,每个线性函数都由一组权重和偏置参数表示,参数的不同取值对应着不同的线性函数。

在无监督学习中,假设空间通常由一个潜在变量模型表示,每个潜在变量模型都有一组可调节的参数,这些参数的不同取值对应着假设空间中的不同模型。比如聚类算法的假设空间就由所有可能的聚类结果组成,每个聚类结果对应着一个不同的潜在变量模型。

选择适合的假设空间是机器学习中的一个重要问题,一个合适的假设空间应该既具备足够的表达能力,又避免过度拟合的问题。为了解决这个问题,通常需要通过交叉验证等技术来评估不同假设空间的性能,并选择最优的假设空间。

归纳偏好

机器学习中的归纳偏好(Inductive Bias)是指算法在学习过程中对学习对象的偏好和先验知识。它是机器学习算法设计的重要因素,能够在训练数据量较小的情况下,帮助算法做出更加合理的学习决策。

归纳偏好可以是任何与学习对象有关的因素,例如学习任务的性质、数据的分布、学习算法的选择等。不同的算法往往具有不同的归纳偏好,导致它们在不同的场景下具有不同的表现。

例如,决策树算法具有对属性值的离散化偏好,即将连续属性值转化为离散的取值,这样可以将属性空间划分为有限的几个部分,从而使得学习任务变得更加简单和可控。

另一个例子是支持向量机(SVM)算法,它具有对最大间隔分离超平面的偏好,即尽可能地将不同类别的数据点分开,并保持超平面距离最大化,从而达到更好的分类性能。

归纳偏好的选择不仅影响学习算法的性能,还可以影响到算法的稳定性和泛化能力。因此,为了选择合适的归纳偏好,需要在数据和任务的基础上进行理性分析和实验验证。

没有免费的午餐定理

"没有免费的午餐定理"(No Free Lunch Theorem,简称NFL定理)是机器学习中一个非常重要的定理。它指出,对于所有可能的问题和算法,算法在所有问题上的表现是平均的,没有一种算法能够在所有问题上都表现得最好。

这个定理的核心思想是,算法的性能是取决于问题本身的特性的,如果算法在一个问题上表现得很好,那么它可能在另一个问题上表现得很差。简单来说,就是不存在一种算法可以解决所有的问题。

这个定理提醒我们,选择适合的算法需要根据具体的问题和数据特征来决定,不能单纯依赖于算法的普适性或者一些“通用的套路”。在机器学习中,为了找到最好的模型或算法,我们需要不断地探索、比较和改进不同的方法,以适应不同的数据和问题场景。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值