【西瓜书】绪论学习笔记

基本术语

概念英文名数学表达别称定义
数据集data set D = { x 1 , x 2 , … , x m } D=\{\bm{x}_1,\bm{x}_2,\dots,\bm{x}_m\} D={x1,x2,,xm}一组记录的集合
属性attribute / feature x i = ( x i 1 ; x i 2 ; …   ; x i d ; ) \bm{x}_i=(x_{i1};x_{i2};\dots;x_{id};) xi=(xi1;xi2;;xid;)特征每个示例由 d d d个属性描述
属性值attribute value x i j x_{ij} xij属性上的取值
示例instance / sample / feature vector x i \bm{x}_i xi样本、特征向量关于一个事件或对象的描述构成的一条记录,每个示例是 d d d维样本空间 X X X中的一个向量, x i ∈ X \bm{x}_i\in X xiX
样本空间attribute space / sample space X X X属性空间、输入空间属性张成的空间
标记label y i y_i yi关于示例结果的信息, y i ∈ Y y_i \in Y yiY
标记空间label space Y Y Y输出空间所有标记的集合
样例example ( x i , y i ) (\bm{x}_i,y_i) (xi,yi)拥有了标记信息的示例
假设hypothesis学得模型对应了关于数据的某种潜在的规律
真相ground-truth真实数据的潜在规律自身

重要概念

泛化能力:学得模型适用于新样本的能力,具有强泛化能力的模型能很好地适用于整个样本空间。
假设空间:我们可以把学习过程看作一个在所有假设组成的空间中进行搜索的过程,搜素目标是找到与训练集“匹配”的假设。假设的表示一旦确定,假设空间及其规模大小就确定了。
版本空间(version space):可能有多个假设与训练集一致,即存在着一个与训练集一致的“假设集合”,版本空间是假设空间的子集。
归纳偏好:对于一个具体的学习算法而言,它必须要产生一个模型。这时,学习算法本身的“偏好”会起到关键的作用。算法可能会喜欢“尽可能特殊”、“尽可能一般”、“更相信某一种属性”。机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”,简称为“偏好”。任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上“等效”的假设所迷惑,而无法产生确定的学习结果。算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。
奥卡姆剃刀:若有多个假设与观察一致,则选用最简单的那个(回归中表现为选择更平滑的曲线)

重要定理

NFL定理:在真实函数为均匀分布的情况下,对于一个学习算法 ξ a \xi_a ξa,若它在某些问题上比学习算法 ξ b \xi_b ξb好,则必然存在另一些问题,在那里 ξ b \xi_b ξb ξ a \xi_a ξa好。
在某些问题上表现好的学习算法,在另一些问题上却可能不尽如人意,学习算法自身的归纳偏好与问题是否相配,往往会起到决定性的作用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

秃头鸭鸭鸭

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值