西瓜书笔记--绪论

基本术语

1、数据集(data set):一组数据记录的集合(一堆西瓜)
2、示例/样本(instance/sample):对于一个事件或对象的描述(西瓜甲),一个示例又被称为一个特征向量。
3、属性/特征(attribute/feature):反映事件或对象在某方面的表现或性质(西瓜的色泽)
4、属性值:属性的取值(西瓜的色泽为乌黑)
5、属性空间/样本空间/输入空间:由属性张成的空间
6、数据维数(dimensionality):数据的属性个数
7、标记(label):关于示例结果的信息(西瓜是否甜(离散)/西瓜的成熟度(连续))
8、样例(example):拥有了标记信息的样例
9、学习/训练:从数据中学得模型的过程,训练中使用的数据为训练数据,每个样本为训练样本。
10、假设(hypothesis):每种模型对应关于数据的某种潜在规律,所以一个模型可以称为一个假设。
11、真相:潜在规律的自身

10和11的直观理解例子:给定一组坐标点,上帝设定了这个函数是y=x^2,但是我们只知道一组坐标点,所以猜测函数是y=x,那么y=x就是一个假设, y=x ^2就是真相。

12、监督学习(supervised learning):训练数据有标记信息,反之则为无监督学习(unsupervised learning)
13、分类(classification):我们希望预测的是离散值(好瓜/坏瓜),只涉及两个类别的称为二分类任务,多类别则为多分类任务。
14、回归(regression):我们希望预测的是连续值(瓜的成熟度)
15、聚类(clustering):将训练集中的数据分为若干组,每组称为一个“簇”(cluster)
分类和回归为监督学习,聚类为无监督学习。

16、测试:在学得模型后,使用其进行预测的过程,被预测的样本称为测试样本。
17、泛化(generalization):学得模型适用于新样本的能力
个人对泛化的理解就是:这个模型是否对所有或者极大多数的样本(即便没有出现在训练集中)也可以做预测。

18、分布:机器学习中一般假设样本空间全体样本服从一个未知的分布(可以类比概率论中的分布),每个样本都是独立从这个分布上采用取得的,即独立同分布(independent and identically distributed,简写为i.i.d)

假设空间

学习过程可以理解成一个在所有假设组成的空间(假设空间)中进行搜索的过程,目标为找到与训练集匹配的假设。

假设可以理解为一个从属性空间到输出空间的映射,而假设空间则为这些假设的集合。

假设空间的概念有点迷惑,因为文中提到了:假设的表示一旦确定,假设空间及其规模大小就确定了。但是在第一章的作业第二题中,如果假设空间确定为图1.1中的假设空间,那这道题就非常的奇怪了…所以我只能理解为假设空间不必需要张成完整的空间(如图1.1)
在这里插入图片描述
在这里插入图片描述
如果理解的有问题之后会回来改正,也希望大家能纠正一下错误。

版本空间则为与训练集一致的假设的集合。(也是我们所希望找到的假设,尽可能结果在训练集上可以达到一致)(如图1.2)
在这里插入图片描述

归纳偏好

如果假设空间中存在多个与训练集一致的假设,即版本空间中有多个假设,选择哪个假设作为我们的模型是一个问题,因为在面对测试集或者其他新的样本的时候,不同假设可能会有不同的结果。

直观的例子:训练集={(0,0),(1,1)},假设空间为多项式函数,我们希望学习到这个曲线的函数表达式。那么我们可能学到的模型有y=x,y=x^2,y=x ^3等等,这些模型在训练集上都是正确的,但是对于新的样本:(2,y’)。对于y’的预测则各不相同。

这时候对于假设的选择就需要我们人为的设定:机器学习算法在学习的过程中对某种类型假设的偏好,称为归纳偏好(inductive bias)

例如我们更倾向于学习一个次数尽可能低的函数,那么我们的学习算法就更倾向于学到y=x这个函数。这也是一个常用的原则:“奥卡姆剃刀”:若有多个假设与观察一致,则选最简单的。

但是这并不意味着我们面对所有问题的时候都要选择最简单的算法,即便是最笨拙的算法也可能在某些问题上的表现要比它好,即无论一个学习算法多聪明,另一个多笨拙,算法性能的期望是相同的—NFL定理,NFL定理说明了:脱离具体问题,空泛讨论什么算法最好是毫无意义的。算法只有相对优劣,且必须针对具体的学习问题。
NFL定理的证明:

在这里插入图片描述
等式第一行到第二行就是单纯的数学推导,连加交换顺序不改变结果,且与连加对应变量无关的可以认为是常数提到连加外面。
等式第二行到第三行主要就是对指示函数连加的求值,由于我们假设了所有可能的f服从均匀分布,且一共可能出现的f有2 ^|X|个,每个f对于x的预测只能是0或者1,且预测为0的和1的个数相同。所以无论真相h(x)=1还是0,f(x)=h(x)的f个数永远是1/22 ^|X|个,所以连加的结果就是1/22 ^|X|
第三行到第四行就是把后面的常数提出来。
第四行到第五行:假设h出现的概率关于h求和为1,很好理解。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值