【DataWhale机器学习吃瓜教程】 第一章 绪论

系列文章目录

【DataWhale机器学习吃瓜教程】 第一章 绪论



概述

本章主要介绍了机器学习的基本概念、相关术语。针对每一个基础概念,西瓜书上都有大量的“西瓜”例子加以说明,十分通俗易懂。因个人之前有过机器学习的相关实践,对于一些基本概念都比较熟知,因此本章的学习上以规范描述概念为主,查缺补漏为辅,主要参考DataWhale的B站课程【吃瓜教程】


一、基本概念

假设空间:能够拟合数据的函数(模型)
版本空间:假设空间的集合
样本:对一个对象或事件的描述(即一条数据),可用向量(x)来表示,向量中的各个维度称为特征;样本在某方面的表现规律称为“标记”(即监督学习常用的y,标签)。所以一条样本往往可以表示为(x,y)这样的形式
样本空间:表示样本的特征向量所在的空间即为样本空间 X X X
标记空间:标记所在的空间 Y Y Y


二、机器学习的任务分类

依据标记取值的类型不同,可将机器学习任务分为以下两类:

  1. 标记取值为离散型,标记的可能取值为有限个,则称为分类任务
  2. 标记取值为连续型,标记的可能取值为有限个,则称为回归任务,多用于预测

依据是否用到标记信息,可将机器学习任务分为以下两类:

  1. 有监督学习:有标记
  2. 无监督学习:无标记

无论哪种任务,机器学习的算法模型都可以抽象为以样本 x x x为自变量,标记 y y y为因变量的函数 y = f ( x ) y=f(x) y=f(x),即一个从输入空间 X X X到输出空间 Y Y Y的映射


三、相关术语

数据集:包含m个样本的数据集合 D = { x 1 , x 1 , . . . , x m } D=\{x_{1},x_{1},...,x_{m}\} D={x1,x1,...,xm}。在训练过程中,会将数据集分为训练集测试集(一般8:2),模型在训练集上进行“学习”,然后用测试集来检验模型的效果。

泛化:模型从已知未知做出尽可能准确的判断的能力

分布:指概率论中的概率分布,通常假设样本空间服从一个未知的分布 D D D,而收集的样本每个都是从该分布中独立采样得到的(独立同分布)。收集到的样本越多,越能从样本中反推出 D D D的信息

数据决定模型的上限,算法则是让模型无限逼近上限
NFL定理(No Free Lunch Theorem): ∑ f E o t e ( L a ∣ X , f ) = ∑ f E o t e ( L b ∣ X , f ) \sum\limits_{f}E_{ote}(\mathcal{L}_a|X,f)=\sum\limits_{f}E_{ote}(\mathcal{L}_b|X,f) fEote(LaX,f)=fEote(LbX,f)

  • L \mathcal{L} L是不同的学习算法,这则公式意味着总误差与使用的学习算法无关,其假设f是均匀分布的,这在实际情况中是不合理的,因为问题出现的机率并不相同、重要程度也不同,因此实际中应该考虑结合具体问题选择合适的学习算法,并不意味着算法模型不重要。

感谢谢文睿大佬的视频课和南瓜书,第一章的视频链接在这里!
https://www.bilibili.com/video/BV1Mh411e7VU?p=2&vd_source=1c7ec538e0273994262b530486f66a18

  • 30
    点赞
  • 33
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

天明Timing

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值