西瓜书第一章笔记:绪论

1.1引言

  • 模型:指从数据中学得的结果
  • 模式:指局部性结果

1.2基本术语

  • 数据集(data set):一组记录的集合(如西瓜的描述集合)
  • 示例(instance)或样本(sample):数据集中的一条记录,是关于一个事件或对象的描述。(如每个示例代表对一个西瓜的描述)
  • 属性(attribute)或特征(feature):反映对象某方面的表现或性质的事项。(如西瓜的属性描述为:根蒂、敲声、色泽)
  • 属性值(attribute value):属性的具体取值。(例如色泽的取值可以为:青绿、乌黑)
  • 属性空间(attribute space)、样本空间(sample space)或输入空间:属性张成的空间。(根蒂、敲声、色泽张成一个关于西瓜的三维空间)
  • 特征向量(feature vector):属性空间中的每一个,向量点代表一个具体的对象。这个向量点就是特征向量
  • 训练数据(training data):从数据中学得模型的过程中使用的数据。这样每一个样本叫训练样本(training sample) 或训练示例(training instance)
  • 标记(label):我们建立的预测。(是不是“好瓜”)
  • 分类(classification):预测的是离散值。(如好瓜、坏瓜)对涉及两个类别的“二分类(binary classificaton)”任务,通常称一个叫“正类”(positive class)另一个叫反类(negative class);涉及多分类任务时称为多分类(multi-class classification)
  • 回归(regression):预测的是连续值。(西瓜成熟度:0.95、0.37)
  • 聚类(clustering):对数据集进行分组,分组结果预先不知,学习过程中使用的训练样本通常不拥有标记信息
  • 监督学习(supervised learning):有标记信息的学习任务,代表是分类和回归。
  • 非监督学习(unsupervised learning):没有标记信息的学习任务,代表是聚类。
  • 泛化(generalization)能力:学得的模型适用新样本的能力

1.3假设空间

  • 归纳(induction) :从特殊推到一般的泛化,从样例中学习就是归纳过程,归纳学习(inductive learning)
  • 演绎(deduction):从一般到特殊
  • 版本空间:现实问题中我们常面临很大的假设空间,可学习过程是基于有限样本训练集进行的,因此可能有多个假设与训练集一致,即存在着一个与训练集一致的“假设集合”
  • 上边的假设(1)(2)(3)即在西瓜数据集上“泛化”出的假设空间。

学习过程可以看作是在所有的假设组成的空间中搜索的过程;
学习的目标是找到与训练数据”匹配“的一组假设。

1.4 归纳偏好

从一组数据中我们能学习出很多不同的模型。哪种模型更好这取决于我们如何给出”偏好“。

  • 奥卡姆剃刀准则:即有多个假设与观察一致,则选择最简单的那个。
  • 多释原则,主要保留与经验观察一致的所有假设。(与集成学习的思想非常吻合)。
  • NFL定理(no free lunch theorem),证明误差与学习算法无关。但NFL定理建立在一个假设上:f(真实目标的函数)是均匀分布的(所有问题出现的机会相同或所有问题同等重要)。实际上,f并不是均匀分布的。根据我们对f的偏好来选择不同的模型。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值