【机器学习西瓜书学习笔记】基础内容

基础内容

基本术语

  • 数据集(data set):所有记录的集合
  • 示例(instance)/ 样本(sample)/ 特征向量(feature vector):数据集中的一条记录(关于一个事件或对象的描述)
  • 属性(attribute)/ 特征(feature):反映事件或对象在某方面的表现或性质的事项
  • 属性值(attribute value):属性的取值
  • 属性空间(attribute space)/ 样本空间(sample space)/ 输入空间 :属性张成的空间

  • 学习(learning)/ 训练(training):从数据中学得模型的过程,通过执行某个学习算法来完成。
  • 训练数据(training data):训练过程中使用的数据
  • 训练样本(training sample) / 训练示例(training instance):训练数据中每个样本称为一个训练样本
  • 训练集(training set): 训练样本组成的集合
  • 测试(testing):学得模型后,使用其进行预测的过程
  • 测试样本(testing sample):被用来预测的样本

  • 假设(hypothesis):学得的模型,对应了数据的某种潜在规律
  • 真相 / 真实(ground-truth):这种潜在规律自身
  • 标记(label):关于示例结果的信息
  • 样例(example):拥有标记信息的示例
  • 标记空间(label space)/ 输出空间:所有标记的集合

  • 分类(classification):欲预测的是离散值时的学习任务
  • 回归(regression):欲预测的是连续值时的学习任务
  • 二分类(binary classification):只涉及两个类别的分类任务,一个类为正类(positive class),一个类为反类(negative class)
  • 多分类(multi-class classification):涉及多个类别的分类任务
  • 泛化(generalization)能力:学得的模型适用于新样本的能力

通常假设样本空间中全体样本服从一个“未知”分布,我们获得的每个样本都是独立同分布(i.i.d)的。

假设空间

概念学习是狭义的归纳学习,要求从训练数据中学得概念。研究应用得比较少,现在使用比较多的是“黑箱”模型。

我们可以把学习过程看作一个在所有假设(hypothesis)组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”(fit)的假设, 假设的表示一旦确定, 假设空间及其规模大小就确定了。需注意的是, 现实问题中我们常面临很大的假设空间,但学习过程是基于有限样本训练集进行的, 因此, 可能有多个假设与训练集一致, 即存在着一个与训练集一致的“假设集合”,我们称之为“版本空间”(version space)。

归纳偏好

算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”(inductive bias),或简称为偏好。归纳偏好帮助算法在版本空间中选择出最终的假设。

奥卡姆剃刀”(Occam’s razor)是一种常用的、自然科学研究中最基本的原则,即“若有多个假设与观察一致, 则选最简单的那个”。但按奥卡姆剃刀所得的假设不一定就是最匹配的假设,不同算法的期待性能是相同的,这叫 “没有免费的午餐” 定理(No Free Lunch Theorem,简称NFL)。但该定理有一个前提所有 “问题” 出现的机会相同、或所有问题同等重要。但实际情形并不是这样。 很多时候,我们只关注自己正在试图解决的问题(例如某个具体应用任务),希望为它找到一个解决方案, 至于这个解决方案在别的问题、甚至在相似的问题上是否为好方案,我们并不关心。

所以,NFL定理最重要的寓意, 是让我们清楚地认识到,脱离具体问题, 空泛地谈论“什么学习算法更好”毫无意义,因为若考虑所有潜在的问题,则所有学习算法都一样好. 要谈论算法的相对优劣, 必须要针对具体的学习问题; 在某些问题上表现好的学习算法,在另一些问题上却可能不尽如人意,学习算法自身的归纳偏好与问题是否相配,往往会起到决定性的作用。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值